2019-2020年是自动驾驶感知技术的转折点。这两年间,行业从简单的2D检测快速演进到复杂的3D感知,多任务学习网络开始大规模应用,BEV(鸟瞰图)感知范式初露端倪。特斯拉在2019年Autonomy Day上展示的FSD芯片和神经网络架构震撼业界,而2020年COVID疫情意外推动了无人配送的落地。同时,中国自动驾驶产业在这一时期快速崛起,NOA(Navigate on Autopilot)功能开始在多家车企落地。
2019年4月22日,特斯拉举办了震撼业界的Autonomy Day。最引人注目的是其自研的FSD(Full Self-Driving)芯片,这标志着特斯拉彻底摆脱了对Mobileye和NVIDIA的依赖。
FSD芯片关键参数:
┌─────────────────────────────────────────┐
│ Tesla FSD Computer (HW3.0) │
├─────────────────────────────────────────┤
│ 制程工艺: 14nm FinFET (三星代工) │
│ 算力: 144 TOPS (INT8) │
│ NPU数量: 2个独立NPU │
│ 单NPU算力: 72 TOPS │
│ CPU: 12核ARM Cortex-A72 │
│ GPU: 1 GHz Mali G71 MP12 │
│ 内存: 8GB LPDDR4 │
│ 功耗: 72W (整板) │
│ 成本: ~$190 (量产成本) │
└─────────────────────────────────────────┘
芯片设计哲学:
特斯拉FSD芯片的设计完全围绕神经网络推理优化,与通用GPU方案形成鲜明对比:
双芯片冗余架构:
┌──────────┐ ┌──────────┐
│ SoC A │<--->│ SoC B │
│ 72 TOPS │ │ 72 TOPS │
└──────────┘ └──────────┘
↓ ↓
独立推理结果 独立推理结果
↓ ↓
┌─────────────────────────┐
│ 结果比对与仲裁器 │
└─────────────────────────┘
| 平台 | 算力(TOPS) | 功耗(W) | 能效比(TOPS/W) | 成本($) |
|---|---|---|---|---|
| Tesla FSD | 144 | 72 | 2.0 | 190 |
| NVIDIA Xavier | 30 | 30 | 1.0 | 350 |
| MobileEye EyeQ4 | 2.5 | 3 | 0.83 | 100 |
| 地平线征程2 | 4 | 2 | 2.0 | 50 |
关键技术创新:
内存层次结构:
L1 Cache (每个CPU核心) : 32KB
↓
L2 Cache (共享) : 2MB
↓
片上SRAM : 32MB (NNA专用)
↓
LPDDR4 : 8GB (68GB/s带宽)
特斯拉展示的神经网络架构相比之前有了质的飞跃:
HydraNet多头网络架构
共享骨干网络 (RegNet)
↓
┌──────────┬──────────┬──────────┬──────────┐
│ │ │ │ │
检测头 车道线头 可行驶区域 交通标志 深度估计
Head Head Head Head Head
│ │ │ │ │
输出1 输出2 输出3 输出4 输出5
关键创新点:
RegNet骨干网络的选择:
特斯拉选择RegNet而非流行的ResNet/EfficientNet有深层考虑:
RegNet设计原则:
宽度: w = 48 * (2.0)^i (通道数递增)
深度: d = [2, 5, 12, 4] (每阶段块数)
组宽: g = 24 (分组卷积)
优势:
• 参数效率提升40%
• 推理速度提升30%
• 硬件友好的规整结构
特征金字塔输出:
Stage 1: 320×240×64 (1/4分辨率)
Stage 2: 160×120×128 (1/8分辨率)
Stage 3: 80×60×256 (1/16分辨率)
Stage 4: 40×30×512 (1/32分辨率)
Stage 5: 20×15×1024 (1/64分辨率)
| 任务头 | 输入特征 | 网络结构 | 输出规格 | 推理耗时 |
|---|---|---|---|---|
| 物体检测 | Stage 3-5 | FPN+3×3 Conv | 100×75×(C+5) | 2.1ms |
| 车道线 | Stage 2-4 | U-Net decoder | 160×120×3 | 1.8ms |
| 可行驶区域 | Stage 2-3 | FCN | 80×60×2 | 1.2ms |
| 交通标志 | Stage 4-5 | RoI Align | 50类分类 | 0.9ms |
| 深度估计 | Stage 2-5 | Encoder-Decoder | 160×120×1 | 2.5ms |
时序信息融合机制:
特斯拉在2019年引入的时序融合是关键突破:
时序特征聚合:
t-3 t-2 t-1 t
↓ ↓ ↓ ↓
特征 特征 特征 特征
↓ ↓ ↓ ↓
[特征对齐模块]←─ 自车运动补偿
↓
[时序注意力机制]
↓
融合特征
特斯拉首次详细介绍了其”影子模式”(Shadow Mode)数据收集系统:
数据规模(2019年):
Shadow Mode工作原理详解:
影子模式数据流:
┌────────────────────────────────┐
│ 生产车辆 │
├────────────────────────────────┤
│ 主控制系统 │ 影子系统 │
│ (AP 2.5) │ (FSD Beta) │
│ ↓ │ ↓ │
│ 实际控制 │ 仅推理不控制 │
│ ↓ │ ↓ │
│ CAN总线 ←─┴─→ 行为比对器 │
│ ↓ │
│ 触发条件判断 │
│ ↓ │
│ 数据上传队列 │
└────────────────────────────────┘
触发数据收集的典型场景:
触发条件配置示例:
{
"hard_brake": {
"deceleration": "> 5 m/s²",
"confidence": "< 0.8",
"upload_window": "[-5s, +10s]"
},
"object_disappear": {
"tracking_loss": "true",
"distance": "< 50m",
"upload_window": "[-3s, +3s]"
},
"unusual_behavior": {
"trajectory_deviation": "> 2m",
"steering_rate": "> 100°/s"
}
}
自动标注系统架构:
多视角自动标注流程:
车辆A观测 ──┐
车辆B观测 ──┼──→ 时空对齐 → 3D重建 → 自动标注
车辆C观测 ──┘ ↓
HD Map校准
↓
标注质量评分
↓
人工审核(< 5%)
关键技术:
数据引擎迭代循环:
版本迭代周期(2周):
Day 1-3: 数据收集与清洗
Day 4-5: 自动标注生成
Day 6-7: 模型训练
Day 8-9: 仿真验证
Day 10-11: 实车测试
Day 12-13: A/B测试
Day 14: OTA推送
特斯拉通过这套系统实现了:
2019年之前的自动驾驶感知系统通常采用独立模块设计:
传统模块化设计:
┌──────────┐ ┌──────────┐ ┌──────────┐
│ 车辆检测 │ │ 车道检测 │ │ 标志识别 │
│ 模型1 │ │ 模型2 │ │ 模型3 │
└──────────┘ └──────────┘ └──────────┘
↓ ↓ ↓
YOLO v3 LaneNet Sign-CNN
(30 FPS) (20 FPS) (15 FPS)
问题:
• 计算冗余:每个模型独立提取特征
• 内存占用大:多个模型同时加载
• 难以协同:模块间信息无法共享
第一代:硬参数共享(Hard Parameter Sharing)
最早期的多任务网络采用简单的硬参数共享:
输入图像
↓
共享编码器 (ResNet-50)
↓
┌────┴────┬────┴────┐
检测分支 分割分支 深度分支
代表工作:
第二代:注意力机制增强
2019年开始,注意力机制被引入多任务学习:
TaskPrompter架构 (2019):
输入特征
↓
┌───────────────┐
│ 任务注意力模块 │
└───────────────┘
↙ ↓ ↘
任务1 任务2 任务3
权重 权重 权重
关键技术:
Mobileye EyeQ5架构
虽然特斯拉抛弃了Mobileye,但后者在2019年发布的EyeQ5展示了另一种多任务设计思路:
EyeQ5多任务处理单元:
┌─────────────────────────────────┐
│ EyeQ5 (24 TOPS) │
├─────────────────────────────────┤
│ • 4个多线程CPU集群 │
│ • 18个视觉处理器(CVP) │
│ • 深度学习加速器(DLA) │
│ • 2个可编程宏阵列(PMA) │
└─────────────────────────────────┘
↓
并行处理15+个视觉任务
EyeQ5的多任务调度策略:
优先级队列:
P0: 紧急制动相关 (AEB) - 10ms响应
P1: 车道保持 (LKA) - 20ms响应
P2: 目标检测与跟踪 - 33ms响应
P3: 交通标志识别 - 100ms响应
P4: 自由空间检测 - 100ms响应
地平线Matrix 2.0
中国本土芯片厂商地平线在2019年推出的Matrix 2.0展示了高效的多任务处理:
Matrix 2.0多任务架构创新:
征程2芯片架构:
┌────────────────────────────┐
│ BPU (Brain Process Unit) │
├────────────────────────────┤
│ 双核架构 @ 1GHz │
│ 96个MAC单元 │
│ 4 TOPS INT8算力 │
└────────────────────────────┘
↓
高效任务调度器
┌────┬────┬────┬────┐
│检测│分割│跟踪│测距│
└────┴────┴────┴────┘
关键优化:
NVIDIA Xavier多任务方案
作为对比,NVIDIA的通用GPU方案展示了不同思路:
Xavier Carmel GPU架构:
512个CUDA核心
↓
统一计算模型
↓
┌─────────────┐
│ TensorRT │ - 推理优化
│ cuDNN │ - 深度学习库
│ VisionWorks│ - 传统CV
└─────────────┘
优势:
劣势:
为什么多任务学习有效?
信息层次:
低层特征(边缘、纹理)── 所有任务共享
↓
中层特征(部件、形状)── 部分任务共享
↓
高层特征(语义、类别)── 任务特定
多任务学习的挑战与解决:
问题:不同任务梯度方向相反
解决方案对比:
├─ 不确定性加权:σ²加权各任务损失
├─ 梯度归一化:GradNorm动态平衡
├─ 帕累托优化:寻找帕累托最优解
└─ 任务交替:动态调整任务训练频率
网络容量分配策略:
共享层:70% 参数
任务特定层:30% 参数
├─ 检测:12%
├─ 分割:10%
└─ 其他:8%
2019年康奈尔大学提出的Pseudo-LiDAR论文引发了业界对纯视觉3D感知的重新思考:
核心思想:
Pseudo-LiDAR处理流程:
┌──────────┐ ┌──────────┐ ┌──────────┐
│ 左图像 │ --> │ 深度估计 │ --> │ 3D点云 │
│ 右图像 │ │ 网络 │ │ 生成 │
└──────────┘ └──────────┘ └──────────┘
↓
┌──────────┐
│ PointNet │
│ 3D检测 │
└──────────┘
2019-2020年,单目深度估计取得重大突破:
关键方法对比:
| 方法 | 年份 | 特点 | KITTI深度误差 |
|---|---|---|---|
| Monodepth2 | 2019 | 自监督学习 | 0.115 |
| PackNet-SfM | 2019 | 3D卷积打包 | 0.107 |
| Depth Hints | 2019 | 立体监督 | 0.098 |
| FeatDepth | 2020 | 特征度量学习 | 0.088 |
特斯拉的深度估计网络
特斯拉在2019年展示的深度网络采用了独特的设计:
深度网络架构:
输入: 1280×960 RGB图像
↓
特征提取: RegNet骨干
↓
多尺度特征金字塔
↙ ↓ ↘
粗糙 中等 精细
深度 深度 深度
↘ ↓ ↙
深度融合
↓
输出: 256×144 深度图
创新点:
挑战1:计算复杂度
挑战2:尺度模糊性
挑战3:远距离精度
德国KBA(联邦机动车管理局)的认证要求推动了技术标准化:
认证技术要求:
┌──────────────────────────────────┐
│ 功能安全 (ISO 26262) │
├──────────────────────────────────┤
│ • ASIL-D等级系统设计 │
│ • 冗余传感器配置 │
│ • 失效安全机制 │
│ • 实时监控与降级策略 │
└──────────────────────────────────┘
为满足欧洲法规,特斯拉进行了多项技术改进:
德国的批准产生了连锁反应:
疫情期间,无人配送从概念快速走向应用,带来新的技术挑战:
配送场景 vs 乘用车场景:
┌───────────────┬──────────────────┐
│ 无人配送 │ 乘用车 │
├───────────────┼──────────────────┤
│ 速度: <30km/h │ 速度: 0-120km/h │
│ 环境: 园区 │ 环境: 开放道路 │
│ 路线: 固定 │ 路线: 任意 │
│ 交互: 行人密集 │ 交互: 车辆为主 │
└───────────────┴──────────────────┘
美团无人配送车感知方案(2020年2月投入武汉):
传感器配置:
前视激光雷达(16线)
↓
┌──────────────┐
│ │
环视 │ 配送车 │ 环视
相机 │ │ 相机
│ │
└──────────────┘
↑
超声波雷达阵列
特点:
• 成本控制在2万元以内
• 360°无死角感知
• 重点优化行人检测
京东无人配送感知策略:
数据积累加速:
算法快速迭代:
传统前视图感知的局限性逐渐显现:
前视图 vs BEV空间:
前视图问题: BEV优势:
┌──────────┐ ┌──────────┐
│ 透视畸变 │ │ 度量准确 │
│ 遮挡严重 │ --> │ 全局视角 │
│ 多相机融合难│ │ 便于规划 │
└──────────┘ └──────────┘
IPM(逆透视映射)时代(2019年之前):
LSS(Lift, Splat, Shoot)突破(2020年):
LSS处理流程:
1. Lift: 图像特征 + 深度分布 → 3D特征
2. Splat: 3D特征 → BEV网格
3. Shoot: BEV特征 → 下游任务
图像特征
↓
深度分布预测
↓
3D特征云
↓
体素化(Voxelize)
↓
BEV特征图
关键创新:
特斯拉的Vector Space(2019年开始内部研发):
虽然特斯拉在2021年AI Day才公开BEV架构,但从2019年的专利和招聘信息可以看出其已在探索:
百度Apollo的BEV尝试:
Apollo 5.5 (2020年) BEV模块:
┌─────────────────────────┐
│ 6个环视摄像头输入 │
└─────────────────────────┘
↓
┌───────────────┐
│ 特征提取网络 │
└───────────────┘
↓
┌───────────────┐
│ BEV转换模块 │
└───────────────┘
↓
┌───────────────┐
│ HD Map融合 │
└───────────────┘
2020年,中国多家车企开始推出NOA(Navigate on Autopilot)类功能:
小鹏NGP(Navigation Guided Pilot)(2020年10月):
蔚来NOP(Navigate on Pilot)(2020年10月):
理想NOA(2020年12月):
中国特色场景处理:
中国道路挑战:
┌────────────────────────────┐
│ 1. 加塞频繁 │
│ 2. 车道线不清晰 │
│ 3. 施工区域多 │
│ 4. 非标准道路设计 │
│ 5. 混合交通流 │
└────────────────────────────┘
技术应对:
| 厂商 | 芯片方案 | 感知方案 | 地图依赖 | 成本 |
|---|---|---|---|---|
| 小鹏 | Xavier | 视觉+毫米波 | 强依赖 | ~5000元 |
| 蔚来 | EyeQ4 | 纯视觉 | 中等依赖 | ~8000元 |
| 理想 | 征程3 | 视觉为主 | 轻依赖 | ~3000元 |
使用数据(2020年底):
快速迭代特点:
技术演进时间线:
2019 Q1 ├─ Pseudo-LiDAR论文发表
2019 Q2 ├─ Tesla Autonomy Day
2019 Q3 ├─ 多任务学习网络普及
2019 Q4 ├─ 深度估计突破0.1误差
2020 Q1 ├─ 德国批准Autopilot
2020 Q2 ├─ COVID推动无人配送
2020 Q3 ├─ LSS/BEV方法提出
2020 Q4 ├─ 中国NOA大规模落地
算力军备竞赛开始:
数据成为核心竞争力:
2019-2020年是自动驾驶感知技术从量变到质变的关键时期。特斯拉通过垂直整合展示了算法与芯片协同设计的威力,多任务学习网络的兴起大幅提升了系统效率,伪激光雷达和深度估计的突破证明了纯视觉3D感知的可行性。COVID疫情意外加速了无人配送的落地,而BEV感知范式的出现预示着下一代技术变革。中国市场在这一时期快速崛起,本土NOA功能的落地标志着中国自动驾驶产业进入快速发展期。
这两年奠定的技术基础,为2021-2022年的BEV和Transformer革命铺平了道路,也预示着端到端学习时代的到来。