第1章:起点 - TDA4时代(2019-2020)
章节概述
2019年是自动驾驶芯片发展史上的关键节点。德州仪器(TI)推出的TDA4系列处理器,标志着汽车行业从简单的ADAS功能向更复杂的自动驾驶系统演进的开始。这一时期,算力需求开始爆发式增长,从传统的2 TOPS跃升至10 TOPS级别。与此同时,中国本土芯片厂商开始崭露头角,地平线、黑芝麻等公司相继推出具有竞争力的产品,打破了国际巨头的垄断格局。
1.1 TI TDA4架构深度解析:Jacinto 7平台
1.1.1 Jacinto 7平台概述
德州仪器在2019年CES上正式发布TDA4系列处理器,这是Jacinto 7平台的首款产品。作为专为ADAS和自动驾驶设计的SoC,TDA4采用了革命性的异构计算架构,将传统汽车MCU的可靠性与现代AI计算需求完美结合。
Jacinto 7平台基于28nm FD-SOI工艺制造,这一选择体现了TI在功耗、性能和成本之间的精妙平衡。FD-SOI(全耗尽绝缘体上硅)技术相比传统bulk CMOS,在低功耗应用中具有显著优势,特别适合汽车环境下的严苛功耗要求。
┌─────────────────────────────────────────────────────────────┐
│ TDA4 SoC 顶层架构 │
├─────────────────────────────────────────────────────────────┤
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Cortex │ │ Cortex │ │ C71x │ │ C66x │ │
│ │ A72x2 │ │ R5Fx4 │ │ DSP │ │ DSPx2 │ │
│ │ (1.8GHz) │ │ (1.0GHz) │ │ (1.0GHz) │ │ (1.35GHz)│ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ ↓ ↓ ↓ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 片上互连 (CBASS) │ │
│ └──────────────────────────────────────────────────────┘ │
│ ↓ ↓ ↓ ↓ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ VPAC │ │ DMPAC │ │ MMA │ │ GPU │ │
│ │ 视觉处理 │ │ 深度&运动 │ │ 矩阵加速 │ │ (可选) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 外部接口:PCIe, USB3, MIPI CSI, Ethernet │ │
│ └──────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
1.1.2 TDA4系列产品线
TDA4系列包含多个型号,针对不同的应用场景和成本需求:
| 型号 | AI算力 | CPU配置 | 主要应用 | 功耗(典型) |
| 型号 | AI算力 | CPU配置 | 主要应用 | 功耗(典型) |
|---|---|---|---|---|
| TDA4VM | 8 TOPS | 2x A72 + 6x R5F | 高端ADAS | 5-10W |
| TDA4VL | 4 TOPS | 2x A72 + 4x R5F | 中端ADAS | 3-7W |
| TDA4VE | 2 TOPS | 2x A72 + 4x R5F | 入门ADAS | 2-5W |
| TDA4AEN | 1 TOPS | 4x R5F | 网关+ADAS | 2-4W |
| TDA4AL | 1 TOPS | 4x R5F | 基础ADAS | 1.5-3W |
这种产品矩阵策略使TI能够覆盖从入门级前向碰撞预警(FCW)到高级自动泊车(AVP)的全部应用场景。
1.1.3 核心架构设计
TDA4的异构架构设计是其核心竞争力所在。通过将不同类型的处理器核心整合在单一芯片上,实现了计算资源的最优配置:
Cortex-A72双核集群:运行Linux/QNX,负责高级算法决策和系统管理。采用ARMv8-A架构,支持64位计算,主频高达1.8GHz。每个核心配备48KB L1指令缓存、32KB L1数据缓存,共享1MB L2缓存。
Cortex-R5F安全岛:最多6个R5F核心,组成3个锁步对,实现ASIL-D级别功能安全。运行实时操作系统(RTOS),处理安全关键任务。每个R5F核心主频1GHz,具有32KB指令缓存和32KB数据缓存,支持紧耦合存储器(TCM)。
MCU子系统:独立的MCU域包含2个R5F核心,负责系统启动、电源管理和外设控制。即使主处理器进入低功耗状态,MCU域仍可独立运行,实现快速唤醒和始终在线功能。
1.1.4 C71x DSP深度解析
C71x是TI专为深度学习推理设计的新一代DSP核心,采用256位VLIW架构,支持定点和浮点运算:
┌──────────────────────────────────────────────┐
│ C71x DSP 微架构 │
├──────────────────────────────────────────────┤
│ ┌────────────────────────────────────────┐ │
│ │ 标量/向量 执行单元 │ │
│ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │
│ │ │ .L1 │ │ .L2 │ │ .S1 │ │ .S2 │ │ │
│ │ └──────┘ └──────┘ └──────┘ └──────┘ │ │
│ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │
│ │ │ .M1 │ │ .M2 │ │ .C │ │ .N │ │ │
│ │ └──────┘ └──────┘ └──────┘ └──────┘ │ │
│ └────────────────────────────────────────┘ │
│ │
│ ┌────────────────────────────────────────┐ │
│ │ 矩阵乘法加速器 (MMA) │ │
│ │ - 256x256 INT8 OPs/cycle │ │
│ │ - 64x64 INT32 OPs/cycle │ │
│ └────────────────────────────────────────┘ │
│ │
│ ┌────────────────────────────────────────┐ │
│ │ L1 Cache: 32KB I + 48KB D │ │
│ │ L2 Cache: 256KB Unified │ │
│ └────────────────────────────────────────┘ │
└──────────────────────────────────────────────┘
关键特性:
- 向量处理能力:512位向量寄存器,支持SIMD操作
- 灵活的数据类型:INT8/INT16/INT32/FP16/FP32
- 专用神经网络指令:激活函数、池化、归一化等
- 流水线深度:14级流水线,优化延迟和吞吐量平衡
1.1.5 视觉处理加速器(VPAC)
VPAC是TDA4中专门处理图像和视频的硬件加速器,包含多个子模块:
图像信号处理器(ISP):
- 支持最多8个200万像素摄像头同时输入
- HDR处理:多帧融合、局部色调映射
- 3A算法硬件加速:自动曝光、自动白平衡、自动对焦
- 镜头畸变校正(LDC):支持鱼眼和广角镜头
- 噪声降低:3D降噪、边缘增强
视觉预处理加速器(VISS):
- 色彩空间转换:Bayer到YUV/RGB
- 缩放和裁剪:任意尺寸调整
- 直方图统计:用于场景分析
密集光流加速器(DOF):
- 实时计算像素级光流
- 支持金字塔光流算法
- 用于运动检测和3D重建
1.1.6 深度学习加速器(MMA)
矩阵乘法加速器(MMA)是TDA4实现高效AI推理的核心:
性能指标:
┌─────────────────────────────────────┐
│ 数据类型 │ 峰值性能 │ 能效比 │
├─────────────────────────────────────┤
│ INT8 │ 8 TOPS │ 2 TOPS/W │
│ INT16 │ 4 TOPS │ 1.5 TOPS/W │
│ FP16 │ 2 TFLOPS │ 0.8 TFLOPS/W│
└─────────────────────────────────────┘
MMA采用脉动阵列架构,优化了数据重用和功耗效率。支持的深度学习框架包括:
- TensorFlow Lite
- ONNX Runtime
- Caffe
- 自定义TI Deep Learning Library(TIDL)
1.1.7 内存子系统设计
TDA4的内存架构采用分层设计,优化带宽利用和访问延迟:
外部内存接口:
- 双通道LPDDR4-4266,最大带宽17GB/s
- 支持ECC保护,满足功能安全要求
- 动态频率调节,优化功耗
片上存储:
- 3MB共享SRAM(MSRAM)
- 分布式L3缓存:512KB
- 各处理器本地存储器
- 硬件管理的缓存一致性
内存管理单元(MMU/MPU):
- 支持虚拟化,隔离不同安全域
- 细粒度访问控制
- 地址转换旁路缓冲器(TLB)
1.1.8 功能安全特性
TDA4从设计之初就考虑了ISO 26262 ASIL-D认证要求:
硬件安全机制:
- 锁步CPU:R5F核心对实时比较
- ECC保护:覆盖所有内存和总线
- BIST:内建自测试电路
- 电压/温度监控
- 时钟监控和看门狗
安全启动流程:
┌──────────┐ ┌──────────┐ ┌──────────┐
│ ROM启动 │ --> │ MCU R5F │ --> │ 主域启动 │
│ (安全根) │ │ (RTOS) │ │ (Linux) │
└──────────┘ └──────────┘ └──────────┘
↓ ↓ ↓
验证签名 安全配置 应用加载
故障处理机制:
- 分级故障响应:警告、降级、安全停止
- 故障注入测试接口
- 运行时诊断和健康监控
- 黑盒记录器功能
1.2 早期ADAS市场格局:Mobileye EyeQ4统治时期
1.2.1 Mobileye的市场地位
2019年,Mobileye几乎垄断了全球ADAS芯片市场。作为Intel在2017年以153亿美元收购的以色列公司,Mobileye凭借其EyeQ系列芯片占据了超过70%的前装ADAS市场份额。这种统治地位建立在三个核心优势之上:
技术先发优势:从1999年成立起,Mobileye就专注于计算机视觉算法和专用芯片设计。20年的技术积累使其在单目视觉感知领域建立了难以逾越的护城河。
垂直整合模式:不同于传统芯片公司只提供硬件,Mobileye提供"黑盒"解决方案——芯片、算法、软件深度绑定。OEM厂商只需集成,无需自研算法,大大降低了开发门槛。
规模化成本优势:2019年,Mobileye芯片年出货量超过1700万颗,规模效应带来的成本优势让竞争对手难以匹敌。单颗EyeQ4的成本控制在50美元以下,而性能相近的竞品成本往往超过100美元。
1.2.2 EyeQ4技术特点
EyeQ4于2018年量产,代表了当时ADAS芯片的最高水平:
┌───────────────────────────────────────────────────┐
│ EyeQ4 架构框图 │
├───────────────────────────────────────────────────┤
│ ┌─────────────┐ ┌─────────────┐ │
│ │ MIPS CPU │ │ MIPS CPU │ │
│ │ Cluster │ │ Cluster │ │
│ │ (4 cores) │ │ (4 cores) │ │
│ └─────────────┘ └─────────────┘ │
│ ↓ ↓ │
│ ┌──────────────────────────────────────┐ │
│ │ 多线程加速器集群(MAC) │ │
│ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │ VMP │ │ VMP │ │ VMP │ │ │
│ │ │ Vector │ │ Vector │ │ Vector │ │ │
│ │ └────────┘ └────────┘ └────────┘ │ │
│ │ ┌────────┐ ┌────────┐ ┌────────┐ │ │
│ │ │ PMA │ │ PMA │ │ PMA │ │ │
│ │ │ Accel. │ │ Accel. │ │ Accel. │ │ │
│ │ └────────┘ └────────┘ └────────┘ │ │
│ └──────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────┐ │
│ │ 计算机视觉引擎(CVE) │ │
│ │ 专用于密集光流和立体匹配 │ │
│ └──────────────────────────────────────┘ │
│ │
│ 制程: 28nm FD-SOI │ 算力: 2.5 TOPS │
│ 功耗: 3W │ ASIL-B认证 │
└───────────────────────────────────────────────────┘
核心创新点:
-
专用视觉处理器(VMP):针对卷积神经网络优化的向量处理器,支持INT8/INT16定点运算,能效比达到0.8 TOPS/W。
-
可编程宏阵列(PMA):灵活的并行处理单元,可根据不同算法需求动态重配置,兼顾通用性和效率。
-
计算机视觉引擎(CVE):硬件加速经典视觉算法,如SIFT、SURF、光流等,这些算法在深度学习兴起前是ADAS的主力。
-
双目/三目视觉支持:原生支持多摄像头输入,可实现深度估计和3D重建。
1.2.3 主要OEM合作伙伴
Mobileye的商业成功很大程度上得益于与全球主要OEM的深度绑定:
| OEM厂商 | 合作项目 | 年份 | 应用级别 |
| OEM厂商 | 合作项目 | 年份 | 应用级别 |
|---|---|---|---|
| BMW | 3系/5系/7系全系 | 2014- | L0-L2 |
| Audi | A6/A7/A8/Q7/Q8 | 2015- | L0-L3 |
| Nissan | ProPilot系统 | 2016- | L2 |
| Volkswagen | Travel Assist | 2018- | L2 |
| Ford | Co-Pilot360 | 2019- | L2 |
| NIO蔚来 | ES8/ES6 (一代) | 2018-2020 | L2 |
| 理想汽车 | 理想ONE | 2019-2022 | L2 |
| 长城汽车 | WEY品牌 | 2018- | L2 |
这种"赢者通吃"的局面让后来者面临巨大挑战:不仅要在技术上追赶,还要打破既有的供应链关系。
1.2.4 竞争对手分析
尽管Mobileye占据统治地位,但2019年已有多家公司开始挑战其垄断:
NVIDIA DRIVE PX2/Xavier (2016-2019):
- 优势:通用GPU架构,开放生态,支持自定义算法
- 劣势:功耗高(30W+),成本昂贵(>$500),车规级认证滞后
- 市场策略:瞄准L4级自动驾驶,与Mobileye错位竞争
Xilinx Zynq UltraScale+ (2018):
- 优势:FPGA可重构架构,灵活性极高
- 劣势:开发门槛高,需要专业FPGA工程师
- 应用:主要用于原型开发和小批量高端车型
瑞萨R-Car系列 (2017):
- 优势:日系车企御用,与丰田、本田关系紧密
- 劣势:AI算力不足(<1 TOPS),主要针对L0-L1级别
- 市场:日本本土市场占有率高
德州仪器TDA2/TDA3 (2015-2018):
- 优势:DSP+ARM架构成熟,汽车电子经验丰富
- 劣势:缺乏深度学习加速器,算力落后
- 转型:TDA4是其追赶的关键产品
1.2.5 市场份额数据
2019年全球ADAS芯片市场格局:
市场份额分布(2019年):
┌────────────────────────────────────────────┐
│ Mobileye ████████████████████ 71% │
│ NVIDIA ████ 8% │
│ TI ███ 6% │
│ Xilinx ██ 4% │
│ Renesas ██ 3% │
│ NXP ██ 3% │
│ Others ███ 5% │
└────────────────────────────────────────────┘
细分市场占有率:
┌─────────────────────────────────────────────────┐
│ 功能/级别 │ Mobileye │ NVIDIA │ TI │ Others │
├─────────────────────────────────────────────────┤
│ AEB(L0) │ 85% │ 2% │ 8% │ 5% │
│ ACC(L1) │ 78% │ 3% │ 10%│ 9% │
│ LKA(L1) │ 82% │ 2% │ 7% │ 9% │
│ HWA(L2) │ 65% │ 15% │ 5% │ 15% │
│ TJP(L2+) │ 45% │ 30% │ 3% │ 22% │
└─────────────────────────────────────────────────┘
市场规模与增长:
- 2019年全球ADAS芯片市场规模:28亿美元
- 年增长率:35%
- 平均单车芯片数量:1.2颗
- L2级渗透率:高端车型30%,中端车型8%
区域分布特点:
- 欧洲:Mobileye渗透率最高(>80%),得益于Euro NCAP推动
- 北美:NVIDIA在高端车型有一定份额,特斯拉开始自研FSD芯片
- 中国:本土厂商开始崛起,但主要在后装市场
- 日本:瑞萨等本土供应商占据一定份额
这种"一超多弱"的格局在2019年看似稳固,但实际上变革的种子已经埋下。Tesla FSD芯片的发布、中国新势力的崛起、以及更高级别自动驾驶的需求,都在推动市场格局的重构。
1.3 算力需求觉醒:从2 TOPS到10 TOPS的跨越
1.3.1 ADAS功能演进驱动力
2019年是ADAS功能从"锦上添花"到"标配必需"的转折点。各国新车评价体系(NCAP)的更新直接推动了算力需求的跃升:
法规推动时间表:
2018: Euro NCAP将AEB纳入五星评级必需项
2019: C-NCAP增加AEB行人检测要求
2020: Euro NCAP要求车道保持辅助(LKA)
2021: 中国要求商用车强制安装AEBS
2022: EU规定所有新车必须配备ISA(智能速度辅助)
这种强制性要求带来的算力需求增长是指数级的:
| 功能级别 | 典型功能 | 所需算力 | 算法类型 |
| 功能级别 | 典型功能 | 所需算力 | 算法类型 |
|---|---|---|---|
| L0 | FCW前向碰撞预警 | 0.1 TOPS | 传统CV |
| L1 | AEB自动紧急制动 | 0.5 TOPS | 传统CV+浅层CNN |
| L1+ | ACC+LKA | 1-2 TOPS | 轻量级CNN |
| L2 | HWA高速辅助 | 2-5 TOPS | 多任务CNN |
| L2+ | NOA领航辅助 | 5-10 TOPS | 深度网络+融合 |
| L2++ | 城市NOA | 10-30 TOPS | Transformer+BEV |
1.3.2 传感器融合需求
多传感器融合成为2019年后的主流趋势,这直接推高了计算需求:
传感器配置演进(典型L2级系统):
2017年前(纯视觉): 2019年后(多传感器融合):
┌─────────────┐ ┌──────────────────────────┐
│ 1x前视 │ │ 1x前视 + 4x环视 │
│ 摄像头 │ │ 1x前毫米波雷达 │
│ (1.2MP) │ │ 4x角雷达 │
└─────────────┘ │ 12x超声波 │
└──────────────────────────┘
↓ ↓
0.5 TOPS 5-10 TOPS
融合算法的计算开销分解:
- 时间同步:5%(多传感器时间戳对齐)
- 空间标定:10%(坐标系转换)
- 特征提取:40%(各传感器独立处理)
- 融合决策:30%(卡尔曼滤波/深度学习融合)
- 轨迹预测:15%(多目标轨迹推演)
1.3.3 算法复杂度提升
深度学习模型的快速演进是算力需求暴增的核心原因:
2017-2019年主流视觉模型演进:
MobileNet V1 (2017) ResNet-50 (2018) EfficientDet (2019)
├─ 参数量:4.2M ├─ 参数量:25.6M ├─ 参数量:52M
├─ FLOPs:569M ├─ FLOPs:4.1G ├─ FLOPs:20G
├─ 精度:70.6% (ImageNet) ├─ 精度:76.2% ├─ 精度:81.5%
└─ 推理:10ms @2TOPS └─ 推理:25ms @2TOPS └─ 推理:100ms @2TOPS
关键算法升级带来的算力需求:
-
2D检测→3D检测: - 2D bbox:0.5 TOPS - 3D bbox+姿态:2 TOPS - 点云+视觉融合:5 TOPS
-
单帧→时序: - 单帧检测:基准算力 - 3帧时序:2.5倍算力 - 视频流处理:4倍算力
-
单任务→多任务: - 目标检测:1x - +语义分割:1.5x - +可行驶区域:2x - +车道线检测:2.5x - +深度估计:3.5x
1.3.4 实时性要求
自动驾驶对延迟的苛刻要求进一步推高了算力需求:
端到端延迟预算(L2级系统):
┌────────────────────────────────────────────────┐
│ 感知 │ 融合 │ 规划 │ 控制 │ 执行 │ 总计 │
├────────────────────────────────────────────────┤
│ 30ms │ 10ms │ 20ms │ 10ms │ 30ms │ <100ms │
└────────────────────────────────────────────────┘
其中感知30ms内需要完成:
- 图像去畸变:2ms
- 目标检测:10ms
- 3D重建:8ms
- 跟踪关联:5ms
- 属性识别:5ms
为了达到实时性要求,芯片必须具备:
- 并行处理能力:多个CNN同时运行
- 流水线设计:不同阶段并行执行
- 硬件加速器:关键算子硬件实现
- 内存带宽:避免数据搬移瓶颈
1.3.5 功耗与散热挑战
算力提升带来的功耗挑战在汽车环境下尤为严峻:
汽车热设计约束:
- 环境温度:-40°C至+85°C(AEC-Q100 Grade 2)
- 结温上限:125°C(芯片内部)
- 被动散热:多数场景无风扇
- 功耗预算:域控制器总功耗<50W
不同算力芯片的功耗对比:
┌───────────────────────────────────────────────────┐
│ 算力(TOPS) │ 典型功耗 │ 能效比 │ 散热方案 │
├───────────────────────────────────────────────────┤
│ 2 │ 3W │ 0.67 │ 自然散热 │
│ 5 │ 8W │ 0.63 │ 散热片 │
│ 10 │ 15W │ 0.67 │ 大散热片 │
│ 30 │ 35W │ 0.86 │ 主动散热 │
│ 100 │ 75W │ 1.33 │ 液冷 │
└───────────────────────────────────────────────────┘
功耗优化技术路线:
- 制程工艺提升:28nm→16nm→7nm,每代降低40%功耗
- 架构优化:专用加速器比通用GPU省电70%
- 精度优化:INT8比FP32省电75%
- 动态调度:DVFS+任务调度,平均省电30%
- 算法优化:模型压缩+剪枝,计算量减少50%
这些挑战共同推动了2019-2020年自动驾驶芯片的快速迭代,从Mobileye EyeQ4的2.5 TOPS到特斯拉FSD的72 TOPS,再到即将到来的NVIDIA Orin的275 TOPS,算力军备竞赛正式拉开序幕。
1.4 中国玩家入场
2019年标志着中国自动驾驶芯片产业的历史性转折。在中美贸易摩擦和"缺芯"危机的双重压力下,国产替代从口号变成现实需求。地平线、黑芝麻等本土企业抓住机遇,以差异化的技术路线和本土化服务优势,开始撬动外资巨头的垄断地位。
1.4.1 地平线征程系列
地平线机器人成立于2015年,创始人余凯曾任百度深度学习研究院(IDL)创始负责人。公司从创立之初就明确了"AI芯片+算法"的技术路线,这与Mobileye的垂直整合模式相似,但在开放性上更进一步。
征程2(Journey 2)芯片详解:
2019年8月,地平线正式发布征程2芯片,这是中国首款车规级AI芯片,也是全球首个采用"矩阵架构"的自动驾驶处理器。
┌──────────────────────────────────────────────────────┐
│ 征程2 (Journey 2) 架构 │
├──────────────────────────────────────────────────────┤
│ ┌────────────────────────────────────────────────┐ │
│ │ 双核 ARM Cortex-A53 @ 1.2GHz │ │
│ └────────────────────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────────────────────┐ │
│ │ BPU 2.0 (Brain Processing Unit) │ │
│ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │
│ │ │ 矩阵 │ │ 矩阵 │ │ 向量 │ │ │
│ │ │ 引擎1 │ │ 引擎2 │ │ 引擎 │ │ │
│ │ └──────────┘ └──────────┘ └──────────┘ │ │
│ │ ┌──────────────────────────────────────┐ │ │
│ │ │ 可编程计算单元 (96个PE) │ │ │
│ │ └──────────────────────────────────────┘ │ │
│ └────────────────────────────────────────────────┘ │
│ │
│ ┌────────────────────────────────────────────────┐ │
│ │ ISP + CV 加速器 │ │
│ │ - 4路摄像头输入 (MIPI CSI-2) │ │
│ │ - HDR处理、去噪、畸变校正 │ │
│ └────────────────────────────────────────────────┘ │
│ │
│ 工艺: 28nm HPC+ │ 算力: 4 TOPS │ 功耗: 2W │
│ AEC-Q100 Grade 2 │ ISO 26262 ASIL-B │
└──────────────────────────────────────────────────────┘
BPU架构创新:
地平线的BPU(Brain Processing Unit)采用独特的"矩阵架构"设计理念:
- 稀疏计算优化:针对神经网络中大量的零值运算进行跳过,实际有效算力可达等效8 TOPS
- 动态精度调整:支持INT8/INT16混合精度,关键层使用高精度
- 编译器协同设计:天工开物(Horizon OpenExplorer)工具链深度优化
- 内存墙突破:采用近数据计算架构,减少数据搬移
征程3(Journey 3)升级:
2020年9月发布的征程3在征程2基础上进一步提升:
- 算力提升至5 TOPS
- 支持8路摄像头输入
- 新增对Transformer网络的支持
- 功耗保持在2.5W
量产落地情况:
| 车企 | 车型 | 搭载方案 | 量产时间 |
| 车企 | 车型 | 搭载方案 | 量产时间 |
|---|---|---|---|
| 长安汽车 | UNI-T | 单征程2 | 2020年6月 |
| 奇瑞 | 蚂蚁 | 单征程2 | 2020年9月 |
| 上汽 | 智己L7 | 4×征程3 | 2021年4月 |
| 理想汽车 | L9(部分功能) | 征程3 | 2022年 |
| 比亚迪 | 海豹(供应商) | 征程3 | 2022年 |
截至2020年底,征程系列芯片出货量超过10万片,成为国产车规级AI芯片出货量最大的产品。
1.4.2 黑芝麻华山一号A500
黑芝麻智能成立于2016年,创始团队来自OmniVision、Marvell、华为海思等芯片公司。与地平线的"算法定义芯片"不同,黑芝麻采用"感知优先"的技术路线。
A500架构特点:
┌───────────────────────────────────────────────────────┐
│ 华山一号 A500 系统架构 │
├───────────────────────────────────────────────────────┤
│ ┌─────────────────────────────────────────────────┐ │
│ │ 4×ARM Cortex-A55 @ 1.6GHz (应用处理器) │ │
│ │ 2×ARM Cortex-R5F @ 800MHz (安全岛) │ │
│ └─────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────┐ │
│ │ NeuralIQ ISP (神经网络ISP) │ │
│ │ - 8路摄像头并行处理 │ │
│ │ - AI增强的3A算法 │ │
│ │ - 低光照优化、HDR融合 │ │
│ └─────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────┐ │
│ │ DynamAI NN引擎 (动态神经网络引擎) │ │
│ │ ┌───────────┐ ┌───────────┐ ┌───────────┐ │ │
│ │ │ NPU核心1 │ │ NPU核心2 │ │ DSP集群 │ │ │
│ │ │ 2.5 TOPS │ │ 2.5 TOPS │ │ 1 TOPS │ │ │
│ │ └───────────┘ └───────────┘ └───────────┘ │ │
│ │ │ │
│ │ 特点:可重构数据流架构 │ │
│ │ - 动态调整计算图 │ │
│ │ - 支持非规则稀疏 │ │
│ └─────────────────────────────────────────────────┘ │
│ │
│ 工艺:16nm FinFET │ 总算力:5-10 TOPS │
│ 功耗:8-10W │ ASIL-B (部分模块ASIL-D) │
└───────────────────────────────────────────────────────┘
核心技术亮点:
-
NeuralIQ ISP:业界首个"感知ISP" - 传统ISP优化人眼视觉效果 - NeuralIQ优化AI识别准确率 - 低光照环境下检测精度提升30% - 支持多曝光HDR实时融合
-
DynamAI架构: - 可重构计算阵列,适应不同网络结构 - 支持动态稀疏,非零值计算效率提升3倍 - 片上SRAM达到16MB,减少外部内存访问
-
车规级设计: - ECC保护覆盖所有存储单元 - 双核锁步安全岛 - 硬件虚拟化支持 - -40°C至+125°C工作温度
产品矩阵:
| 型号 | A500 | A500L | A500Pro |
| 型号 | A500 | A500L | A500Pro |
|---|---|---|---|
| NPU算力 | 5 TOPS | 4 TOPS | 10 TOPS |
| CPU | 4×A55 | 2×A55 | 4×A55+2×A72 |
| 摄像头 | 8路 | 4路 | 12路 |
| 功耗 | 8W | 5W | 15W |
| 目标市场 | L2+ | L2 | L3 |
1.4.3 技术路线对比
中国芯片企业的技术路线选择反映了不同的市场定位和技术理念:
技术路线对比矩阵:
┌──────────────────────────────────────────────────────────┐
│ │ 地平线 │ 黑芝麻 │ Mobileye │ NVIDIA │
├──────────────────────────────────────────────────────────┤
│ 架构理念 │ 矩阵架构 │ 可重构 │ 专用ASIC │ 通用GPU │
│ 算法开放度 │ 半开放 │ 全开放 │ 黑盒 │ 全开放 │
│ ISP集成 │ 有 │ 强化版 │ 有 │ 无 │
│ 主要客户 │ 自主品牌 │ 新势力 │ 传统OEM │ 高端车 │
│ 工艺节点 │ 28nm │ 16nm │ 28nm │ 12nm │
│ 成本(推测) │ $30-50 │ $40-60 │ $50-80 │ $200+ │
│ 交付模式 │ 芯片+参考│ 芯片 │ 完整方案 │ SDK │
└──────────────────────────────────────────────────────────┘
差异化竞争策略:
-
地平线:软硬结合 - 提供"芯片+算法+工具链"完整解决方案 - 但保留客户自定义算法的空间 - 类似"Android模式":基础能力+定制化
-
黑芝麻:硬件优先 - 专注芯片硬件能力,算法完全开放 - 强调图像处理能力,从源头提升感知质量 - 适合有算法能力的主机厂和Tier1
-
寒武纪(车载尝试): - 从云端AI芯片切入车载 - 强调训练和推理一体化 - 2019年探索性产品,未大规模量产
-
芯驰科技: - 域控制器SoC,不只是AI - 集成MCU+MPU+GPU+AI - 面向整个座舱或底盘域
1.4.4 市场策略分析
本土化服务优势:
中国芯片企业的崛起很大程度上得益于本土化服务能力:
-
快速响应: - 需求响应:1-2周 vs 国外厂商的1-2月 - 现场支持:24小时到达 vs 远程支持为主 - 定制开发:3-6个月 vs 12-18个月
-
成本优势: - 芯片价格:比同等算力国外产品低30-50% - 开发成本:本地团队成本更低 - 认证成本:熟悉中国标准和流程
-
生态协同: - 与本土Tier1深度合作(德赛西威、华阳、航盛等) - 与本土算法公司联合(Momenta、轻舟智航、元戎启行等) - 与主机厂联合开发,深度定制
客户拓展策略:
市场切入路径:
2019年 2020年 2021年
传统路线: 后装市场 ──→ 前装项目 ──→ 量产交付
(试错成本低) (建立信任) (规模化)
新势力路线: 概念验证 ──→ 联合开发 ──→ 战略合作
(快速迭代) (深度绑定) (共同成长)
政府项目: 示范项目 ──→ 行业标准 ──→ 规模推广
(政策支持) (标准制定) (强制应用)
典型合作案例:
-
长安汽车+地平线: - 2019年签署战略合作 - 2020年UNI-T首发搭载征程2 - 2021年成立联合实验室 - 深度参与长安智能化战略
-
上汽集团+黑芝麻: - 2020年战略投资黑芝麻 - 智己汽车采用华山系列 - 飞凡汽车预研下一代产品 - 零束科技联合开发
-
比亚迪策略: - 多供应商策略,不绑定单一厂商 - 地平线、黑芝麻均有合作 - 同时自研芯片做技术储备
1.4.5 产业链本土化趋势
供应链安全驱动:
2019年的国际形势变化让供应链安全成为首要考虑:
供应链本土化程度(2019年底):
┌─────────────────────────────────────────────────┐
│ 环节 │ 本土化率 │ 主要玩家 │
├─────────────────────────────────────────────────┤
│ 芯片设计 │ 60% │ 地平线、黑芝麻等 │
│ EDA工具 │ <5% │ 依赖Synopsys/Cadence│
│ IP授权 │ 20% │ 部分自研+ARM授权 │
│ 晶圆制造 │ 30% │ 中芯国际(14nm) │
│ 封装测试 │ 70% │ 长电、通富、华天 │
│ 车规认证 │ 90% │ 国内认证机构 │
└─────────────────────────────────────────────────┘
政策支持体系:
-
国家级政策: - 2019年:《车联网产业发展行动计划》 - 2020年:新基建纳入自动驾驶 - 科创板支持芯片企业上市
-
地方政府支持: - 上海:临港新片区智能网联汽车综合测试示范区 - 北京:亦庄自动驾驶示范区 - 深圳:坪山智能网联汽车测试区 - 各地产业基金投资支持
-
行业标准制定: - 中国汽车芯片标准体系建设 - C-V2X标准推进 - 信息安全标准制定
产业联盟形成:
2019-2020年,多个产业联盟成立,推动生态建设:
- 中国汽车芯片产业创新战略联盟(2020年9月)
- 成员:一汽、东风、上汽、北汽等主机厂
-
目标:建立自主可控产业链
-
智能网联汽车产业创新联盟
- 覆盖芯片、软件、整车全产业链
-
制定行业标准和路线图
-
地方产业集群:
- 上海嘉定:汽车芯片设计集群
- 苏州工业园区:车规级芯片测试
- 深圳坪山:智能驾驶产业园
未来展望:
中国自动驾驶芯片产业在2019-2020年完成了从0到1的突破,证明了技术可行性和商业可行性。但要真正实现国产替代,还需要在以下方面持续努力:
- 技术追赶:从4-5 TOPS追赶到100+ TOPS级别
- 生态完善:工具链、开发环境、人才培养
- 标准主导:参与国际标准制定,输出中国方案
- 规模效应:提高出货量,降低成本
- 品牌建设:从"可用"到"好用"到"首选"
这个过程预计需要5-10年时间,但2019年已经迈出了坚实的第一步。