2023年5月,一辆配备纯视觉方案的特斯拉Model 3在北美高速公路上,因强烈逆光导致摄像头暂时”失明”,紧急制动后被后车追尾。同月,一辆搭载激光雷达的蔚来ET7在上海暴雨中,激光雷达被雨水严重干扰,但凭借毫米波雷达和摄像头的冗余,成功完成了紧急避让。这两个案例生动展示了自动驾驶感知系统设计的核心争议:是追求特斯拉式的”第一性原理”纯视觉方案,还是采用多传感器融合的冗余设计?
从2016年至今,多传感器融合技术经历了从简单叠加到深度融合的演进。早期的融合更像是”1+1=2”的物理叠加,各传感器独立工作,在决策层简单投票。而今天的融合已经演化为”1+1>2”的化学反应,通过深度学习实现了多模态信息的有机融合。
本章将深入剖析多传感器融合的技术演进、架构设计、工程挑战以及产业实践,探讨在自动驾驶走向规模化部署的关键阶段,冗余设计的必要性与实现路径。
自动驾驶常用传感器各有其物理特性决定的优劣势,理解这些特性是设计融合系统的基础。
传感器特性对比矩阵
┌─────────┬────────┬─────────┬──────────┬─────────┬─────────┐
│ 特性 │ Camera │ LiDAR │ Radar │ 4D Radar│ USS │
├─────────┼────────┼─────────┼──────────┼─────────┼─────────┤
│ 分辨率 │ 极高 │ 高 │ 低 │ 中 │ 极低 │
│ 测距精度 │ 低 │ 极高 │ 高 │ 高 │ 中 │
│ 测速能力 │ 无 │ 低 │ 极高 │ 极高 │ 无 │
│ 恶劣天气 │ 差 │ 较差 │ 优秀 │ 优秀 │ 良好 │
│ 夜间性能 │ 差 │ 优秀 │ 优秀 │ 优秀 │ 优秀 │
│ 语义理解 │ 极强 │ 弱 │ 极弱 │ 弱 │ 无 │
│ 成本 │ 低 │ 高 │ 中 │ 中高 │ 极低 │
│ 功耗 │ 低 │ 高 │ 低 │ 中 │ 极低 │
└─────────┴────────┴─────────┴──────────┴─────────┴─────────┘
摄像头 (Camera)
激光雷达 (LiDAR)
毫米波雷达 (Radar)
4D成像雷达
从信息论角度,多传感器融合的本质是降低感知不确定性。设传感器i对目标状态x的观测为z_i,其信息量可用Shannon熵表示:
H(x|z_i) = -∑ p(x|z_i) log p(x|z_i)
多传感器融合后的联合熵:
H(x|z_1,z_2,...,z_n) ≤ min{H(x|z_i)}
这意味着融合多个独立信息源理论上总能降低不确定性。但实际工程中,传感器间往往存在相关性,盲目增加传感器并不一定带来线性收益。
融合层级示意图
数据层融合 (Raw Data Level)
┌──────┐ ┌──────┐ ┌──────┐
│Camera│ │LiDAR │ │Radar │
│ Raw │ │Points│ │ ADC │
└───┬──┘ └───┬──┘ └───┬──┘
└────────┼────────┘
┌───V───┐
│Fusion │
└───┬───┘
V
Detection
特征层融合 (Feature Level)
┌──────┐ ┌──────┐ ┌──────┐
│Camera│ │LiDAR │ │Radar │
└───┬──┘ └───┬──┘ └───┬──┘
┌───V───┐┌───V───┐┌───V───┐
│Feature││Feature││Feature│
└───┬───┘└───┬───┘└───┬───┘
└────────┼────────┘
┌───V───┐
│Fusion │
└───┬───┘
V
Detection
决策层融合 (Decision Level)
┌──────┐ ┌──────┐ ┌──────┐
│Camera│ │LiDAR │ │Radar │
└───┬──┘ └───┬──┘ └───┬──┘
┌───V───┐┌───V───┐┌───V───┐
│Detect ││Detect ││Detect │
└───┬───┘└───┬───┘└───┬───┘
└────────┼────────┘
┌───V───┐
│Fusion │
└───────┘
早期的多传感器系统采用”各自为战”的策略。每个传感器独立完成目标检测,然后在决策层进行融合。
典型案例:2017年Uber ATG自动驾驶系统
架构示意:
Camera ──> YOLO v3 ──> 2D Boxes ──┐
├──> NMS ──> Tracking
LiDAR ──> PointNet ──> 3D Boxes ─┘ Fusion
这种架构的问题在于:
2018年3月Uber自动驾驶致死事故分析 事故调查显示,摄像头检测到行人但被误分类为”false positive”,激光雷达检测到障碍物但无法确定类别,两个系统的输出在融合层产生了决策冲突,最终系统选择了”继续行驶”的错误决策。
随着深度学习的发展,业界开始探索在特征层进行融合,让不同传感器的信息在更早的阶段进行交互。
里程碑工作:PointPainting (2019, nuScenes)
PointPainting首次提出将2D图像分割信息”绘制”到3D点云上:
PointPainting流程:
Image ──> DeepLabV3 ──> Segmentation
│
LiDAR ──> Project ─────────┘
│
V
Painted Points ──> PointRCNN ──> 3D Detection
这种方法首次展示了跨模态特征增强的潜力,但仍存在投影误差和信息利用不充分的问题。
MVLidarNet (2020, Waymo)
Waymo提出的多视角激光雷达网络,将点云转换为多个视角的2D表征:
通过CNN处理这些2D表征,然后融合预测结果。这种方法巧妙地将3D问题转化为2D问题,大幅降低了计算复杂度。
BEV(鸟瞰图)成为多传感器融合的统一表征空间,不同模态的数据都转换到BEV空间进行融合。
BEVFusion (2022, MIT & 上海交大)
BEVFusion架构:
Camera Branch:
Images ──> Backbone ──> FPN ──> LSS ──> BEV Features
│
V
BEV Encoder ──> Head
^
│
LiDAR Branch:
Points ──> Voxelize ──> 3D Conv ──> BEV Features
关键创新:
性能提升显著:
TransFusion (2022, 香港科技大学)
将Transformer引入多传感器融合:
Query-based Fusion:
Object Queries ──> Cross-Attention ──> Image Features
│
V
Transformer ──> Predictions
^
│
Cross-Attention ──> LiDAR Features
通过可学习的object queries在不同模态间进行信息交互,实现了更灵活的融合机制。
随着端到端范式的兴起,融合策略从显式设计转向隐式学习。
UniAD (2023, 上海AI Lab)
统一的自动驾驶框架,将感知、预测、规划统一建模:
多模态输入 ──> Unified Transformer ──> 多任务输出
│ │ │
Camera Query-based Detection
LiDAR Reasoning Tracking
Radar Motion
Map Planning
OccNet-Fusion (2024, Tesla)
Tesla在2024 AI Day展示的占据网络融合方案:
多传感器系统面临的首要挑战是时空对齐。不同传感器有不同的采样率、延迟和坐标系。
时间同步挑战
传感器采样率差异:
Camera: 30 FPS (33ms)
LiDAR: 10 Hz (100ms)
Radar: 13 Hz (77ms)
IMU: 100 Hz (10ms)
时间轴示意:
t=0ms t=33ms t=66ms t=77ms t=100ms
│────────│────────│────────│────────│
Cam1 Cam2 Cam3 │ │
│ Radar1 │
│ LiDAR1
解决方案:
空间标定挑战
外参标定精度直接影响融合效果。1°的角度误差在100m距离上会产生1.7m的位置偏差。
标定误差影响:
┌─────────────────────────────────┐
│ 距离(m) │ 1° 误差 │ 0.1° 误差 │
├─────────┼─────────┼─────────────┤
│ 10 │ 0.17m │ 0.017m │
│ 50 │ 0.87m │ 0.087m │
│ 100 │ 1.75m │ 0.175m │
└─────────────────────────────────┘
标定方法演进:
不同传感器产生的数据形态差异巨大:图像是密集的2D矩阵,点云是稀疏的3D点集,雷达是极坐标下的稀疏点。
数据密度差异:
Camera: 1920×1080 = 2,073,600 像素/帧
LiDAR: ~120,000 点/帧 (64线)
Radar: ~200 点/帧
统一表征方法:
3D Space ──> Voxel Grid ──> 3D CNN
│ │
Points 0.1m×0.1m×0.1m cells
BEV投影,保留高度信息:
┌──┬──┬──┬──┐
│P1│P2│ │P3│ 每个Pillar编码:
├──┼──┼──┼──┤ - 点数
│ │P4│P5│ │ - 最高点
├──┼──┼──┼──┤ - 平均强度
│P6│ │ │P7│ - 统计特征
└──┴──┴──┴──┘
自动驾驶系统必须能够处理传感器失效,包括完全失效和性能降级。
失效模式分类:
硬失效:
- 断电/断线
- 机械损坏
- 通信中断
软失效:
- 遮挡(泥土、雨雪)
- 干扰(强光、电磁)
- 性能衰减
降级策略设计:
传感器健康度评估:
┌──────────────────────────────────┐
│ Sensor │ Status │ Confidence │
├────────┼────────┼────────────────┤
│Camera 1│ OK │ 95% │
│Camera 2│Degraded│ 60% │
│LiDAR │ OK │ 98% │
│Radar │ Failed │ 0% │
└──────────────────────────────────┘
│
V
动态权重调整
│
V
┌──────────────────────────────────┐
│ 降级模式: │
│ - 降低车速 │
│ - 增加安全距离 │
│ - 限制功能(禁止变道) │
│ - 请求接管 │
└──────────────────────────────────┘
实际案例:2022年蔚来ET7雨天降级处理
蔚来ET7的NAD系统在暴雨中的处理流程:
Waymo作为L4自动驾驶的领导者,其第五代系统采用了业界最豪华的传感器配置。
传感器配置(Jaguar I-PACE平台):
┌─────────────────────────────────────┐
│ Waymo Gen 5 配置 │
├─────────────────────────────────────┤
│ • 29个摄像头 │
│ - 13个高分辨率相机 │
│ - 9个周视相机 │
│ - 4个鱼眼相机 │
│ - 3个用于交通灯检测 │
│ • 5个激光雷达 │
│ - 1个360° 长距主雷达 │
│ - 4个近距补盲雷达 │
│ • 6个毫米波雷达 │
│ - 覆盖360°,探测距离300m │
│ • 总成本:~$75,000 │
└─────────────────────────────────────┘
融合架构特点:
Raw Level: 点云+图像配准
↓
Feature Level: 多模态特征融合
↓
Object Level: 目标级关联与跟踪
↓
Scene Level: 场景理解与预测
关键创新:VoxelNet++
Waymo自研的VoxelNet++实现了相机和LiDAR的深度融合:
性能提升:
华为在问界M9上首次量产部署了4D成像雷达,开创了新的融合路径。
传感器配置:
华为ADS 2.0 (问界M9)
├── 视觉系统
│ ├── 11个高清摄像头 (800万像素)
│ └── 覆盖范围:360°环视 + 前向250m
├── 4D成像雷达
│ ├── 1个前向 (192线等效)
│ ├── 分辨率:0.5°×0.5°
│ └── 探测距离:300m
├── 激光雷达
│ ├── 1个前向 (128线)
│ └── 探测距离:200m
└── 超声波雷达:12个
4D雷达融合创新:
4D成像雷达相比传统3D雷达增加了高度维度信息:
传统雷达输出:(x, y, v, RCS)
4D雷达输出:(x, y, z, v, RCS)
分辨率对比:
传统雷达:~5°方位角分辨率
4D雷达:0.5°方位角,1°俯仰角
点云密度:
传统:~200点/帧
4D:~10000点/帧
融合架构特点:
输入:Camera + 4D Radar + LiDAR
↓
BEV编码器
↓
时序融合(RNN)
↓
输出:占据栅格 + 语义标签
实测性能:
蔚来采用11个摄像头+1个激光雷达的配置,在成本和性能间寻求平衡。
融合策略演进:
NT1.0 (2020):后融合
Camera ──> Detection ──┐
├──> NMS ──> Output
LiDAR ──> Detection ──┘
NT2.0 (2022):BEV融合
Camera ──> BEV ──┐
├──> Fusion ──> Detection
LiDAR ──> BEV ──┘
NT3.0 (2024):端到端融合
Multi-modal ──> Transformer ──> End-to-End
Aquila超感系统特点:
t=0ms: Full Fusion (Camera + LiDAR)
t=33ms: Camera-only Update
t=66ms: Camera-only Update
t=100ms: Full Fusion (Camera + LiDAR)
理想汽车采用了更务实的渐进式路线,从纯视觉逐步过渡到融合方案。
发展历程:
2021 AD辅助驾驶:纯视觉
│
2022 AD Pro:视觉+毫米波
│
2023 AD Max:视觉+激光雷达+4D雷达
融合架构特点:
主路径:Camera + LiDAR融合
↓
备份路径:Camera-only
↓
仲裁器选择输出
┌────────────┬──────────┬────────┬─────────┬──────────┐
│方案 │传感器成本│算力需求│功能等级 │代表车型 │
├────────────┼──────────┼────────┼─────────┼──────────┤
│纯视觉 │~$300 │100 TOPS│L2+ │Tesla M3 │
│视觉+毫米波 │~$800 │150 TOPS│L2++ │理想L7 Pro │
│视觉+1L │~$2000 │250 TOPS│L2+++ │小鹏P7i │
│视觉+1L+4D │~$3500 │500 TOPS│L3 Ready │问界M9 │
│全冗余L4 │>$50000 │2000TOPS│L4 │Waymo │
└────────────┴──────────┴────────┴─────────┴──────────┘
基于2024年各家公布的数据:
性能提升对比(相对于纯视觉):
┌─────────────────┬─────────┬──────────┐
│指标 │+1 LiDAR │+1L+4D雷达│
├─────────────────┼─────────┼──────────┤
│静止车辆检测 │ +40% │ +65% │
│恶劣天气可用性 │ +25% │ +50% │
│夜间检测准确率 │ +55% │ +70% │
│AEB成功率 │ +15% │ +25% │
│最远探测距离 │ +50m │ +100m │
└─────────────────┴─────────┴──────────┘
投资回报周期估算:
初始投资 年安全收益 回收期
纯视觉 基准 基准 -
+毫米波 +$500 $200/年 2.5年
+激光雷达 +$1700 $500/年 3.4年
+4D雷达 +$3200 $800/年 4.0年
注:安全收益包括事故减少、保险优惠等
特斯拉观点:第一性原理
Elon Musk的核心论点:
特斯拉纯视觉演进:
2016: 8个摄像头硬件就绪
2019: 开始移除雷达new orders
2021: 北美版本移除雷达
2022: FSD Beta纯视觉
2023: V12端到端纯视觉
反驳观点:工程现实主义
多传感器融合虽然提升了鲁棒性,但也带来了复杂性:
系统复杂度爆炸
复杂度增长:
单传感器:O(n)
双传感器:O(n²) + 标定 + 同步
三传感器:O(n³) + 更多交叉验证
典型问题:
中国厂商普遍选择融合方案的原因:
1. 神经网络原生融合
未来的融合将从人工设计转向完全学习:
2024: 手工设计融合规则
↓
2025: 混合(规则+学习)
↓
2026: 端到端学习融合
↓
2027: 自适应动态融合
2. 4D成像雷达崛起
4D雷达正在成为新的平衡点:
4D雷达技术路线图:
2023: 192线等效,0.5°分辨率
2024: 256线等效,0.3°分辨率
2025: 512线等效,0.2°分辨率
2026: 接近激光雷达性能
3. 计算架构革新
专用融合加速器出现:
传统架构:
CPU → GPU → DLA → 输出
未来架构:
多模态输入 → Fusion NPU → 统一输出
(专用融合处理器)
2025年:标配化
2026年:智能化
2027年:极简化
正在制定的关键标准:
对主机厂:
对Tier 1:
对算法公司:
多传感器融合vs纯视觉的争论,本质上反映了自动驾驶发展路径的两种哲学:
历史经验告诉我们,汽车工业从来都是安全第一。从安全带到ABS,从气囊到ESP,每一项安全技术的普及都经历了从”奢侈品”到”必需品”的过程。多传感器融合,作为自动驾驶的”安全带”,其普及是历史的必然。
2024年,我们正站在融合技术突破的关键节点。随着4D雷达的成熟、激光雷达的降本、算力的提升,以及端到端学习的突破,多传感器融合正在从”成本负担”转变为”竞争优势”。那些今天还在犹豫是否采用融合方案的厂商,可能会在明天的竞争中掉队。
正如一位资深工程师所说:”在自动驾驶领域,没有完美的传感器,只有更完善的融合。”这不仅是技术选择,更是对生命安全的承诺。
本章完成于2024年12月,基于公开资料和行业交流整理。随着技术快速发展,部分内容可能需要更新。