第1章:起点 - TDA4时代(2019-2020)

章节概述

2019年是自动驾驶芯片发展史上的关键节点。德州仪器(TI)推出的TDA4系列处理器,标志着汽车行业从简单的ADAS功能向更复杂的自动驾驶系统演进的开始。这一时期,算力需求开始爆发式增长,从传统的2 TOPS跃升至10 TOPS级别。与此同时,中国本土芯片厂商开始崭露头角,地平线、黑芝麻等公司相继推出具有竞争力的产品,打破了国际巨头的垄断格局。

1.1 TI TDA4架构深度解析:Jacinto 7平台

1.1.1 Jacinto 7平台概述

德州仪器在2019年CES上正式发布TDA4系列处理器,这是Jacinto 7平台的首款产品。作为专为ADAS和自动驾驶设计的SoC,TDA4采用了革命性的异构计算架构,将传统汽车MCU的可靠性与现代AI计算需求完美结合。

Jacinto 7平台基于28nm FD-SOI工艺制造,这一选择体现了TI在功耗、性能和成本之间的精妙平衡。FD-SOI(全耗尽绝缘体上硅)技术相比传统bulk CMOS,在低功耗应用中具有显著优势,特别适合汽车环境下的严苛功耗要求。

┌─────────────────────────────────────────────────────────────┐
│                     TDA4 SoC 顶层架构                        │
├─────────────────────────────────────────────────────────────┤
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │  Cortex  │  │  Cortex  │  │   C71x   │  │   C66x   │  │
│  │  A72x2   │  │  R5Fx4   │  │   DSP    │  │  DSPx2   │  │
│  │ (1.8GHz) │  │ (1.0GHz) │  │ (1.0GHz) │  │ (1.35GHz)│  │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘  │
│        ↓              ↓              ↓              ↓        │
│  ┌──────────────────────────────────────────────────────┐  │
│  │                   片上互连 (CBASS)                     │  │
│  └──────────────────────────────────────────────────────┘  │
│        ↓              ↓              ↓              ↓        │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐  │
│  │   VPAC   │  │   DMPAC  │  │    MMA   │  │   GPU    │  │
│  │  视觉处理 │  │ 深度&运动 │  │  矩阵加速 │  │ (可选)   │  │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘  │
│                                                              │
│  ┌──────────────────────────────────────────────────────┐  │
│  │         外部接口:PCIe, USB3, MIPI CSI, Ethernet       │  │
│  └──────────────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────────────┘

1.1.2 TDA4系列产品线

TDA4系列包含多个型号,针对不同的应用场景和成本需求:

| 型号 | AI算力 | CPU配置 | 主要应用 | 功耗(典型) |

型号 AI算力 CPU配置 主要应用 功耗(典型)
TDA4VM 8 TOPS 2x A72 + 6x R5F 高端ADAS 5-10W
TDA4VL 4 TOPS 2x A72 + 4x R5F 中端ADAS 3-7W
TDA4VE 2 TOPS 2x A72 + 4x R5F 入门ADAS 2-5W
TDA4AEN 1 TOPS 4x R5F 网关+ADAS 2-4W
TDA4AL 1 TOPS 4x R5F 基础ADAS 1.5-3W

这种产品矩阵策略使TI能够覆盖从入门级前向碰撞预警(FCW)到高级自动泊车(AVP)的全部应用场景。

1.1.3 核心架构设计

TDA4的异构架构设计是其核心竞争力所在。通过将不同类型的处理器核心整合在单一芯片上,实现了计算资源的最优配置:

Cortex-A72双核集群:运行Linux/QNX,负责高级算法决策和系统管理。采用ARMv8-A架构,支持64位计算,主频高达1.8GHz。每个核心配备48KB L1指令缓存、32KB L1数据缓存,共享1MB L2缓存。

Cortex-R5F安全岛:最多6个R5F核心,组成3个锁步对,实现ASIL-D级别功能安全。运行实时操作系统(RTOS),处理安全关键任务。每个R5F核心主频1GHz,具有32KB指令缓存和32KB数据缓存,支持紧耦合存储器(TCM)。

MCU子系统:独立的MCU域包含2个R5F核心,负责系统启动、电源管理和外设控制。即使主处理器进入低功耗状态,MCU域仍可独立运行,实现快速唤醒和始终在线功能。

1.1.4 C71x DSP深度解析

C71x是TI专为深度学习推理设计的新一代DSP核心,采用256位VLIW架构,支持定点和浮点运算:

┌──────────────────────────────────────────────┐
│              C71x DSP 微架构                   │
├──────────────────────────────────────────────┤
│  ┌────────────────────────────────────────┐  │
│  │        标量/向量 执行单元                │  │
│  │  ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │  │
│  │  │ .L1  │ │ .L2  │ │ .S1  │ │ .S2  │ │  │
│  │  └──────┘ └──────┘ └──────┘ └──────┘ │  │
│  │  ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │  │
│  │  │ .M1  │ │ .M2  │ │ .C   │ │ .N   │ │  │
│  │  └──────┘ └──────┘ └──────┘ └──────┘ │  │
│  └────────────────────────────────────────┘  │
│                                                │
│  ┌────────────────────────────────────────┐  │
│  │      矩阵乘法加速器 (MMA)                │  │
│  │   - 256x256 INT8 OPs/cycle             │  │
│  │   - 64x64 INT32 OPs/cycle              │  │
│  └────────────────────────────────────────┘  │
│                                                │
│  ┌────────────────────────────────────────┐  │
│  │         L1 Cache: 32KB I + 48KB D       │  │
│  │         L2 Cache: 256KB Unified         │  │
│  └────────────────────────────────────────┘  │
└──────────────────────────────────────────────┘

关键特性:

  • 向量处理能力:512位向量寄存器,支持SIMD操作
  • 灵活的数据类型:INT8/INT16/INT32/FP16/FP32
  • 专用神经网络指令:激活函数、池化、归一化等
  • 流水线深度:14级流水线,优化延迟和吞吐量平衡

1.1.5 视觉处理加速器(VPAC)

VPAC是TDA4中专门处理图像和视频的硬件加速器,包含多个子模块:

图像信号处理器(ISP)

  • 支持最多8个200万像素摄像头同时输入
  • HDR处理:多帧融合、局部色调映射
  • 3A算法硬件加速:自动曝光、自动白平衡、自动对焦
  • 镜头畸变校正(LDC):支持鱼眼和广角镜头
  • 噪声降低:3D降噪、边缘增强

视觉预处理加速器(VISS)

  • 色彩空间转换:Bayer到YUV/RGB
  • 缩放和裁剪:任意尺寸调整
  • 直方图统计:用于场景分析

密集光流加速器(DOF)

  • 实时计算像素级光流
  • 支持金字塔光流算法
  • 用于运动检测和3D重建

1.1.6 深度学习加速器(MMA)

矩阵乘法加速器(MMA)是TDA4实现高效AI推理的核心:

性能指标:
┌─────────────────────────────────────┐
│ 数据类型  │ 峰值性能  │ 能效比     │
├─────────────────────────────────────┤
│ INT8     │ 8 TOPS   │ 2 TOPS/W   │
│ INT16    │ 4 TOPS   │ 1.5 TOPS/W │
│ FP16     │ 2 TFLOPS │ 0.8 TFLOPS/W│
└─────────────────────────────────────┘

MMA采用脉动阵列架构,优化了数据重用和功耗效率。支持的深度学习框架包括:

  • TensorFlow Lite
  • ONNX Runtime
  • Caffe
  • 自定义TI Deep Learning Library(TIDL)

1.1.7 内存子系统设计

TDA4的内存架构采用分层设计,优化带宽利用和访问延迟:

外部内存接口

  • 双通道LPDDR4-4266,最大带宽17GB/s
  • 支持ECC保护,满足功能安全要求
  • 动态频率调节,优化功耗

片上存储

  • 3MB共享SRAM(MSRAM)
  • 分布式L3缓存:512KB
  • 各处理器本地存储器
  • 硬件管理的缓存一致性

内存管理单元(MMU/MPU)

  • 支持虚拟化,隔离不同安全域
  • 细粒度访问控制
  • 地址转换旁路缓冲器(TLB)

1.1.8 功能安全特性

TDA4从设计之初就考虑了ISO 26262 ASIL-D认证要求:

硬件安全机制

  • 锁步CPU:R5F核心对实时比较
  • ECC保护:覆盖所有内存和总线
  • BIST:内建自测试电路
  • 电压/温度监控
  • 时钟监控和看门狗

安全启动流程

┌──────────┐     ┌──────────┐     ┌──────────┐
│  ROM启动  │ --> │ MCU R5F  │ --> │ 主域启动  │
│  (安全根) │     │ (RTOS)   │     │ (Linux)  │
└──────────┘     └──────────┘     └──────────┘
     ↓                 ↓                 ↓
  验证签名          安全配置          应用加载

故障处理机制

  • 分级故障响应:警告、降级、安全停止
  • 故障注入测试接口
  • 运行时诊断和健康监控
  • 黑盒记录器功能

1.2 早期ADAS市场格局:Mobileye EyeQ4统治时期

1.2.1 Mobileye的市场地位

2019年,Mobileye几乎垄断了全球ADAS芯片市场。作为Intel在2017年以153亿美元收购的以色列公司,Mobileye凭借其EyeQ系列芯片占据了超过70%的前装ADAS市场份额。这种统治地位建立在三个核心优势之上:

技术先发优势:从1999年成立起,Mobileye就专注于计算机视觉算法和专用芯片设计。20年的技术积累使其在单目视觉感知领域建立了难以逾越的护城河。

垂直整合模式:不同于传统芯片公司只提供硬件,Mobileye提供"黑盒"解决方案——芯片、算法、软件深度绑定。OEM厂商只需集成,无需自研算法,大大降低了开发门槛。

规模化成本优势:2019年,Mobileye芯片年出货量超过1700万颗,规模效应带来的成本优势让竞争对手难以匹敌。单颗EyeQ4的成本控制在50美元以下,而性能相近的竞品成本往往超过100美元。

1.2.2 EyeQ4技术特点

EyeQ4于2018年量产,代表了当时ADAS芯片的最高水平:

┌───────────────────────────────────────────────────┐
│                EyeQ4 架构框图                      │
├───────────────────────────────────────────────────┤
│  ┌─────────────┐  ┌─────────────┐                │
│  │  MIPS CPU   │  │  MIPS CPU   │                │
│  │   Cluster   │  │   Cluster   │                │
│  │  (4 cores)  │  │  (4 cores)  │                │
│  └─────────────┘  └─────────────┘                │
│         ↓                ↓                        │
│  ┌──────────────────────────────────────┐        │
│  │         多线程加速器集群(MAC)          │        │
│  │   ┌────────┐ ┌────────┐ ┌────────┐   │        │
│  │   │  VMP   │ │  VMP   │ │  VMP   │   │        │
│  │   │ Vector │ │ Vector │ │ Vector │   │        │
│  │   └────────┘ └────────┘ └────────┘   │        │
│  │   ┌────────┐ ┌────────┐ ┌────────┐   │        │
│  │   │  PMA   │ │  PMA   │ │  PMA   │   │        │
│  │   │ Accel. │ │ Accel. │ │ Accel. │   │        │
│  │   └────────┘ └────────┘ └────────┘   │        │
│  └──────────────────────────────────────┘        │
│                                                    │
│  ┌──────────────────────────────────────┐        │
│  │         计算机视觉引擎(CVE)           │        │
│  │     专用于密集光流和立体匹配            │        │
│  └──────────────────────────────────────┘        │
│                                                    │
│  制程: 28nm FD-SOI  │  算力: 2.5 TOPS            │
│  功耗: 3W          │  ASIL-B认证                │
└───────────────────────────────────────────────────┘

核心创新点

  1. 专用视觉处理器(VMP):针对卷积神经网络优化的向量处理器,支持INT8/INT16定点运算,能效比达到0.8 TOPS/W。

  2. 可编程宏阵列(PMA):灵活的并行处理单元,可根据不同算法需求动态重配置,兼顾通用性和效率。

  3. 计算机视觉引擎(CVE):硬件加速经典视觉算法,如SIFT、SURF、光流等,这些算法在深度学习兴起前是ADAS的主力。

  4. 双目/三目视觉支持:原生支持多摄像头输入,可实现深度估计和3D重建。

1.2.3 主要OEM合作伙伴

Mobileye的商业成功很大程度上得益于与全球主要OEM的深度绑定:

| OEM厂商 | 合作项目 | 年份 | 应用级别 |

OEM厂商 合作项目 年份 应用级别
BMW 3系/5系/7系全系 2014- L0-L2
Audi A6/A7/A8/Q7/Q8 2015- L0-L3
Nissan ProPilot系统 2016- L2
Volkswagen Travel Assist 2018- L2
Ford Co-Pilot360 2019- L2
NIO蔚来 ES8/ES6 (一代) 2018-2020 L2
理想汽车 理想ONE 2019-2022 L2
长城汽车 WEY品牌 2018- L2

这种"赢者通吃"的局面让后来者面临巨大挑战:不仅要在技术上追赶,还要打破既有的供应链关系。

1.2.4 竞争对手分析

尽管Mobileye占据统治地位,但2019年已有多家公司开始挑战其垄断:

NVIDIA DRIVE PX2/Xavier (2016-2019)

  • 优势:通用GPU架构,开放生态,支持自定义算法
  • 劣势:功耗高(30W+),成本昂贵(>$500),车规级认证滞后
  • 市场策略:瞄准L4级自动驾驶,与Mobileye错位竞争

Xilinx Zynq UltraScale+ (2018)

  • 优势:FPGA可重构架构,灵活性极高
  • 劣势:开发门槛高,需要专业FPGA工程师
  • 应用:主要用于原型开发和小批量高端车型

瑞萨R-Car系列 (2017)

  • 优势:日系车企御用,与丰田、本田关系紧密
  • 劣势:AI算力不足(<1 TOPS),主要针对L0-L1级别
  • 市场:日本本土市场占有率高

德州仪器TDA2/TDA3 (2015-2018)

  • 优势:DSP+ARM架构成熟,汽车电子经验丰富
  • 劣势:缺乏深度学习加速器,算力落后
  • 转型:TDA4是其追赶的关键产品

1.2.5 市场份额数据

2019年全球ADAS芯片市场格局:

市场份额分布(2019年):
┌────────────────────────────────────────────┐
│ Mobileye         ████████████████████ 71%  │
│ NVIDIA           ████ 8%                    │
│ TI               ███ 6%                     │
│ Xilinx           ██ 4%                      │
│ Renesas          ██ 3%                      │
│ NXP              ██ 3%                      │
│ Others           ███ 5%                     │
└────────────────────────────────────────────┘

细分市场占有率:
┌─────────────────────────────────────────────────┐
│ 功能/级别   │ Mobileye │ NVIDIA │ TI │ Others │
├─────────────────────────────────────────────────┤
│ AEB(L0)    │   85%    │   2%   │ 8% │   5%   │
│ ACC(L1)    │   78%    │   3%   │ 10%│   9%   │
│ LKA(L1)    │   82%    │   2%   │ 7% │   9%   │
│ HWA(L2)    │   65%    │   15%  │ 5% │   15%  │
│ TJP(L2+)   │   45%    │   30%  │ 3% │   22%  │
└─────────────────────────────────────────────────┘

市场规模与增长

  • 2019年全球ADAS芯片市场规模:28亿美元
  • 年增长率:35%
  • 平均单车芯片数量:1.2颗
  • L2级渗透率:高端车型30%,中端车型8%

区域分布特点

  • 欧洲:Mobileye渗透率最高(>80%),得益于Euro NCAP推动
  • 北美:NVIDIA在高端车型有一定份额,特斯拉开始自研FSD芯片
  • 中国:本土厂商开始崛起,但主要在后装市场
  • 日本:瑞萨等本土供应商占据一定份额

这种"一超多弱"的格局在2019年看似稳固,但实际上变革的种子已经埋下。Tesla FSD芯片的发布、中国新势力的崛起、以及更高级别自动驾驶的需求,都在推动市场格局的重构。

1.3 算力需求觉醒:从2 TOPS到10 TOPS的跨越

1.3.1 ADAS功能演进驱动力

2019年是ADAS功能从"锦上添花"到"标配必需"的转折点。各国新车评价体系(NCAP)的更新直接推动了算力需求的跃升:

法规推动时间表

2018: Euro NCAP将AEB纳入五星评级必需项
2019: C-NCAP增加AEB行人检测要求
2020: Euro NCAP要求车道保持辅助(LKA)
2021: 中国要求商用车强制安装AEBS
2022: EU规定所有新车必须配备ISA(智能速度辅助)

这种强制性要求带来的算力需求增长是指数级的:

| 功能级别 | 典型功能 | 所需算力 | 算法类型 |

功能级别 典型功能 所需算力 算法类型
L0 FCW前向碰撞预警 0.1 TOPS 传统CV
L1 AEB自动紧急制动 0.5 TOPS 传统CV+浅层CNN
L1+ ACC+LKA 1-2 TOPS 轻量级CNN
L2 HWA高速辅助 2-5 TOPS 多任务CNN
L2+ NOA领航辅助 5-10 TOPS 深度网络+融合
L2++ 城市NOA 10-30 TOPS Transformer+BEV

1.3.2 传感器融合需求

多传感器融合成为2019年后的主流趋势,这直接推高了计算需求:

传感器配置演进(典型L2级系统):

2017年前(纯视觉):              2019年后(多传感器融合):
┌─────────────┐                  ┌──────────────────────────┐
│   1x前视    │                  │  1x前视 + 4x环视         │
│  摄像头     │                  │  1x前毫米波雷达           │
│ (1.2MP)     │                  │  4x角雷达                 │
└─────────────┘                  │  12x超声波                │
                                 └──────────────────────────┘
     ↓                                      ↓
  0.5 TOPS                              5-10 TOPS

融合算法的计算开销分解

  • 时间同步:5%(多传感器时间戳对齐)
  • 空间标定:10%(坐标系转换)
  • 特征提取:40%(各传感器独立处理)
  • 融合决策:30%(卡尔曼滤波/深度学习融合)
  • 轨迹预测:15%(多目标轨迹推演)

1.3.3 算法复杂度提升

深度学习模型的快速演进是算力需求暴增的核心原因:

2017-2019年主流视觉模型演进

MobileNet V1 (2017)          ResNet-50 (2018)         EfficientDet (2019)
├─ 参数量:4.2M              ├─ 参数量:25.6M          ├─ 参数量:52M
├─ FLOPs:569M              ├─ FLOPs:4.1G           ├─ FLOPs:20G
├─ 精度:70.6% (ImageNet)   ├─ 精度:76.2%           ├─ 精度:81.5%
└─ 推理:10ms @2TOPS        └─ 推理:25ms @2TOPS     └─ 推理:100ms @2TOPS

关键算法升级带来的算力需求

  1. 2D检测→3D检测: - 2D bbox:0.5 TOPS - 3D bbox+姿态:2 TOPS - 点云+视觉融合:5 TOPS

  2. 单帧→时序: - 单帧检测:基准算力 - 3帧时序:2.5倍算力 - 视频流处理:4倍算力

  3. 单任务→多任务: - 目标检测:1x - +语义分割:1.5x - +可行驶区域:2x - +车道线检测:2.5x - +深度估计:3.5x

1.3.4 实时性要求

自动驾驶对延迟的苛刻要求进一步推高了算力需求:

端到端延迟预算(L2级系统):
┌────────────────────────────────────────────────┐
│ 感知 │ 融合 │ 规划 │ 控制 │ 执行 │ 总计      │
├────────────────────────────────────────────────┤
│ 30ms │ 10ms │ 20ms │ 10ms │ 30ms │ <100ms    │
└────────────────────────────────────────────────┘

其中感知30ms内需要完成:

- 图像去畸变:2ms
- 目标检测:10ms
- 3D重建:8ms
- 跟踪关联:5ms
- 属性识别:5ms

为了达到实时性要求,芯片必须具备:

  • 并行处理能力:多个CNN同时运行
  • 流水线设计:不同阶段并行执行
  • 硬件加速器:关键算子硬件实现
  • 内存带宽:避免数据搬移瓶颈

1.3.5 功耗与散热挑战

算力提升带来的功耗挑战在汽车环境下尤为严峻:

汽车热设计约束

  • 环境温度:-40°C至+85°C(AEC-Q100 Grade 2)
  • 结温上限:125°C(芯片内部)
  • 被动散热:多数场景无风扇
  • 功耗预算:域控制器总功耗<50W

不同算力芯片的功耗对比

┌───────────────────────────────────────────────────┐
│ 算力(TOPS) │ 典型功耗 │ 能效比 │ 散热方案        │
├───────────────────────────────────────────────────┤
│    2       │   3W     │  0.67  │ 自然散热        │
│    5       │   8W     │  0.63  │ 散热片          │
│    10      │   15W    │  0.67  │ 大散热片        │
│    30      │   35W    │  0.86  │ 主动散热        │
│    100     │   75W    │  1.33  │ 液冷            │
└───────────────────────────────────────────────────┘

功耗优化技术路线

  1. 制程工艺提升:28nm→16nm→7nm,每代降低40%功耗
  2. 架构优化:专用加速器比通用GPU省电70%
  3. 精度优化:INT8比FP32省电75%
  4. 动态调度:DVFS+任务调度,平均省电30%
  5. 算法优化:模型压缩+剪枝,计算量减少50%

这些挑战共同推动了2019-2020年自动驾驶芯片的快速迭代,从Mobileye EyeQ4的2.5 TOPS到特斯拉FSD的72 TOPS,再到即将到来的NVIDIA Orin的275 TOPS,算力军备竞赛正式拉开序幕。

1.4 中国玩家入场

2019年标志着中国自动驾驶芯片产业的历史性转折。在中美贸易摩擦和"缺芯"危机的双重压力下,国产替代从口号变成现实需求。地平线、黑芝麻等本土企业抓住机遇,以差异化的技术路线和本土化服务优势,开始撬动外资巨头的垄断地位。

1.4.1 地平线征程系列

地平线机器人成立于2015年,创始人余凯曾任百度深度学习研究院(IDL)创始负责人。公司从创立之初就明确了"AI芯片+算法"的技术路线,这与Mobileye的垂直整合模式相似,但在开放性上更进一步。

征程2(Journey 2)芯片详解

2019年8月,地平线正式发布征程2芯片,这是中国首款车规级AI芯片,也是全球首个采用"矩阵架构"的自动驾驶处理器。

┌──────────────────────────────────────────────────────┐
│              征程2 (Journey 2) 架构                    │
├──────────────────────────────────────────────────────┤
│  ┌────────────────────────────────────────────────┐  │
│  │           双核 ARM Cortex-A53 @ 1.2GHz          │  │
│  └────────────────────────────────────────────────┘  │
│                         ↓                             │
│  ┌────────────────────────────────────────────────┐  │
│  │         BPU 2.0 (Brain Processing Unit)        │  │
│  │  ┌──────────┐  ┌──────────┐  ┌──────────┐    │  │
│  │  │  矩阵    │  │  矩阵    │  │  向量    │    │  │
│  │  │  引擎1   │  │  引擎2   │  │  引擎    │    │  │
│  │  └──────────┘  └──────────┘  └──────────┘    │  │
│  │  ┌──────────────────────────────────────┐    │  │
│  │  │        可编程计算单元 (96个PE)          │    │  │
│  │  └──────────────────────────────────────┘    │  │
│  └────────────────────────────────────────────────┘  │
│                                                        │
│  ┌────────────────────────────────────────────────┐  │
│  │              ISP + CV 加速器                    │  │
│  │   - 4路摄像头输入 (MIPI CSI-2)                 │  │
│  │   - HDR处理、去噪、畸变校正                     │  │
│  └────────────────────────────────────────────────┘  │
│                                                        │
│  工艺: 28nm HPC+  │ 算力: 4 TOPS  │ 功耗: 2W       │
│  AEC-Q100 Grade 2 │ ISO 26262 ASIL-B               │
└──────────────────────────────────────────────────────┘

BPU架构创新

地平线的BPU(Brain Processing Unit)采用独特的"矩阵架构"设计理念:

  1. 稀疏计算优化:针对神经网络中大量的零值运算进行跳过,实际有效算力可达等效8 TOPS
  2. 动态精度调整:支持INT8/INT16混合精度,关键层使用高精度
  3. 编译器协同设计:天工开物(Horizon OpenExplorer)工具链深度优化
  4. 内存墙突破:采用近数据计算架构,减少数据搬移

征程3(Journey 3)升级

2020年9月发布的征程3在征程2基础上进一步提升:

  • 算力提升至5 TOPS
  • 支持8路摄像头输入
  • 新增对Transformer网络的支持
  • 功耗保持在2.5W

量产落地情况

| 车企 | 车型 | 搭载方案 | 量产时间 |

车企 车型 搭载方案 量产时间
长安汽车 UNI-T 单征程2 2020年6月
奇瑞 蚂蚁 单征程2 2020年9月
上汽 智己L7 4×征程3 2021年4月
理想汽车 L9(部分功能) 征程3 2022年
比亚迪 海豹(供应商) 征程3 2022年

截至2020年底,征程系列芯片出货量超过10万片,成为国产车规级AI芯片出货量最大的产品。

1.4.2 黑芝麻华山一号A500

黑芝麻智能成立于2016年,创始团队来自OmniVision、Marvell、华为海思等芯片公司。与地平线的"算法定义芯片"不同,黑芝麻采用"感知优先"的技术路线。

A500架构特点

┌───────────────────────────────────────────────────────┐
│            华山一号 A500 系统架构                       │
├───────────────────────────────────────────────────────┤
│  ┌─────────────────────────────────────────────────┐  │
│  │     4×ARM Cortex-A55 @ 1.6GHz (应用处理器)       │  │
│  │     2×ARM Cortex-R5F @ 800MHz (安全岛)          │  │
│  └─────────────────────────────────────────────────┘  │
│                                                         │
│  ┌─────────────────────────────────────────────────┐  │
│  │          NeuralIQ ISP (神经网络ISP)               │  │
│  │   - 8路摄像头并行处理                             │  │
│  │   - AI增强的3A算法                               │  │
│  │   - 低光照优化、HDR融合                          │  │
│  └─────────────────────────────────────────────────┘  │
│                                                         │
│  ┌─────────────────────────────────────────────────┐  │
│  │          DynamAI NN引擎 (动态神经网络引擎)         │  │
│  │   ┌───────────┐  ┌───────────┐  ┌───────────┐  │  │
│  │   │  NPU核心1  │  │  NPU核心2  │  │  DSP集群  │  │  │
│  │   │  2.5 TOPS  │  │  2.5 TOPS  │  │  1 TOPS   │  │  │
│  │   └───────────┘  └───────────┘  └───────────┘  │  │
│  │                                                   │  │
│  │   特点:可重构数据流架构                           │  │
│  │   - 动态调整计算图                               │  │
│  │   - 支持非规则稀疏                               │  │
│  └─────────────────────────────────────────────────┘  │
│                                                         │
│  工艺:16nm FinFET  │ 总算力:5-10 TOPS              │
│  功耗:8-10W       │ ASIL-B (部分模块ASIL-D)        │
└───────────────────────────────────────────────────────┘

核心技术亮点

  1. NeuralIQ ISP:业界首个"感知ISP" - 传统ISP优化人眼视觉效果 - NeuralIQ优化AI识别准确率 - 低光照环境下检测精度提升30% - 支持多曝光HDR实时融合

  2. DynamAI架构: - 可重构计算阵列,适应不同网络结构 - 支持动态稀疏,非零值计算效率提升3倍 - 片上SRAM达到16MB,减少外部内存访问

  3. 车规级设计: - ECC保护覆盖所有存储单元 - 双核锁步安全岛 - 硬件虚拟化支持 - -40°C至+125°C工作温度

产品矩阵

| 型号 | A500 | A500L | A500Pro |

型号 A500 A500L A500Pro
NPU算力 5 TOPS 4 TOPS 10 TOPS
CPU 4×A55 2×A55 4×A55+2×A72
摄像头 8路 4路 12路
功耗 8W 5W 15W
目标市场 L2+ L2 L3

1.4.3 技术路线对比

中国芯片企业的技术路线选择反映了不同的市场定位和技术理念:

技术路线对比矩阵:
┌──────────────────────────────────────────────────────────┐
│            │ 地平线  │ 黑芝麻  │ Mobileye │ NVIDIA  │
├──────────────────────────────────────────────────────────┤
│ 架构理念    │ 矩阵架构 │ 可重构  │ 专用ASIC │ 通用GPU │
│ 算法开放度  │ 半开放  │ 全开放  │ 黑盒     │ 全开放  │
│ ISP集成    │ 有      │ 强化版  │ 有       │ 无      │
│ 主要客户   │ 自主品牌 │ 新势力  │ 传统OEM  │ 高端车  │
│ 工艺节点   │ 28nm    │ 16nm   │ 28nm    │ 12nm   │
│ 成本(推测) │ $30-50  │ $40-60 │ $50-80  │ $200+  │
│ 交付模式   │ 芯片+参考│ 芯片    │ 完整方案 │ SDK    │
└──────────────────────────────────────────────────────────┘

差异化竞争策略

  1. 地平线:软硬结合 - 提供"芯片+算法+工具链"完整解决方案 - 但保留客户自定义算法的空间 - 类似"Android模式":基础能力+定制化

  2. 黑芝麻:硬件优先 - 专注芯片硬件能力,算法完全开放 - 强调图像处理能力,从源头提升感知质量 - 适合有算法能力的主机厂和Tier1

  3. 寒武纪(车载尝试): - 从云端AI芯片切入车载 - 强调训练和推理一体化 - 2019年探索性产品,未大规模量产

  4. 芯驰科技: - 域控制器SoC,不只是AI - 集成MCU+MPU+GPU+AI - 面向整个座舱或底盘域

1.4.4 市场策略分析

本土化服务优势

中国芯片企业的崛起很大程度上得益于本土化服务能力:

  1. 快速响应: - 需求响应:1-2周 vs 国外厂商的1-2月 - 现场支持:24小时到达 vs 远程支持为主 - 定制开发:3-6个月 vs 12-18个月

  2. 成本优势: - 芯片价格:比同等算力国外产品低30-50% - 开发成本:本地团队成本更低 - 认证成本:熟悉中国标准和流程

  3. 生态协同: - 与本土Tier1深度合作(德赛西威、华阳、航盛等) - 与本土算法公司联合(Momenta、轻舟智航、元戎启行等) - 与主机厂联合开发,深度定制

客户拓展策略

市场切入路径:
                  2019年          2020年          2021年
传统路线:  后装市场 ──→ 前装项目 ──→ 量产交付
           (试错成本低)  (建立信任)    (规模化)

新势力路线: 概念验证 ──→ 联合开发 ──→ 战略合作
           (快速迭代)   (深度绑定)    (共同成长)

政府项目:  示范项目 ──→ 行业标准 ──→ 规模推广
          (政策支持)   (标准制定)    (强制应用)

典型合作案例

  1. 长安汽车+地平线: - 2019年签署战略合作 - 2020年UNI-T首发搭载征程2 - 2021年成立联合实验室 - 深度参与长安智能化战略

  2. 上汽集团+黑芝麻: - 2020年战略投资黑芝麻 - 智己汽车采用华山系列 - 飞凡汽车预研下一代产品 - 零束科技联合开发

  3. 比亚迪策略: - 多供应商策略,不绑定单一厂商 - 地平线、黑芝麻均有合作 - 同时自研芯片做技术储备

1.4.5 产业链本土化趋势

供应链安全驱动

2019年的国际形势变化让供应链安全成为首要考虑:

供应链本土化程度(2019年底):
┌─────────────────────────────────────────────────┐
│ 环节         │ 本土化率 │ 主要玩家           │
├─────────────────────────────────────────────────┤
│ 芯片设计     │   60%    │ 地平线、黑芝麻等    │
│ EDA工具     │   <5%    │ 依赖Synopsys/Cadence│
│ IP授权      │   20%    │ 部分自研+ARM授权    │
│ 晶圆制造    │   30%    │ 中芯国际(14nm)     │
│ 封装测试    │   70%    │ 长电、通富、华天    │
│ 车规认证    │   90%    │ 国内认证机构       │
└─────────────────────────────────────────────────┘

政策支持体系

  1. 国家级政策: - 2019年:《车联网产业发展行动计划》 - 2020年:新基建纳入自动驾驶 - 科创板支持芯片企业上市

  2. 地方政府支持: - 上海:临港新片区智能网联汽车综合测试示范区 - 北京:亦庄自动驾驶示范区 - 深圳:坪山智能网联汽车测试区 - 各地产业基金投资支持

  3. 行业标准制定: - 中国汽车芯片标准体系建设 - C-V2X标准推进 - 信息安全标准制定

产业联盟形成

2019-2020年,多个产业联盟成立,推动生态建设:

  • 中国汽车芯片产业创新战略联盟(2020年9月)
  • 成员:一汽、东风、上汽、北汽等主机厂
  • 目标:建立自主可控产业链

  • 智能网联汽车产业创新联盟

  • 覆盖芯片、软件、整车全产业链
  • 制定行业标准和路线图

  • 地方产业集群

  • 上海嘉定:汽车芯片设计集群
  • 苏州工业园区:车规级芯片测试
  • 深圳坪山:智能驾驶产业园

未来展望

中国自动驾驶芯片产业在2019-2020年完成了从0到1的突破,证明了技术可行性和商业可行性。但要真正实现国产替代,还需要在以下方面持续努力:

  1. 技术追赶:从4-5 TOPS追赶到100+ TOPS级别
  2. 生态完善:工具链、开发环境、人才培养
  3. 标准主导:参与国际标准制定,输出中国方案
  4. 规模效应:提高出货量,降低成本
  5. 品牌建设:从"可用"到"好用"到"首选"

这个过程预计需要5-10年时间,但2019年已经迈出了坚实的第一步。