第4章:BEV与Transformer变革 (2021-2022)
4.1 引言:感知范式的根本性转变
2021-2022年是自动驾驶感知技术发生根本性变革的两年。如果说2016-2020年是深度学习在自动驾驶中站稳脚跟的阶段,那么这两年则见证了感知架构从2D到3D、从透视图到鸟瞰图(BEV)、从CNN到Transformer的全面升级。
为什么是2021年?
多个技术趋势在2021年形成共振:
- 算力突破临界点:车规级芯片算力突破100 TOPS,使得复杂的BEV转换和Transformer计算成为可能
- Transformer在CV领域成熟:ViT、DETR等工作证明了Transformer在视觉任务上的有效性
- 数据规模效应显现:Tesla积累的数十亿英里行驶数据开始展现威力
- 高精地图的局限性暴露:维护成本高、更新慢、覆盖范围有限
BEV:统一的表征空间
BEV(Bird's Eye View)并非新概念,但将其作为自动驾驶的核心表征却是革命性的:
传统方案:多相机独立感知
┌─────┐ ┌─────┐ ┌─────┐
│前视 │ │左视 │ │右视 │
└──┬──┘ └──┬──┘ └──┬──┘
↓ ↓ ↓
独立2D检测 独立2D检测 独立2D检测
↓ ↓ ↓
└────────┴────────┘
后融合
↓
3D世界理解
BEV方案:统一空间感知
┌─────┐ ┌─────┐ ┌─────┐
│前视 │ │环视 │ │后视 │
└──┬──┘ └──┬──┘ └──┬──┘
└────────┼────────┘
↓
特征级融合
↓
BEV特征图
↓
统一3D感知输出
4.2 2021年上半年:BEV感知的学术探索
DETR3D:开创性的端到端3D检测
2021年3月,DETR3D论文发表,首次将Transformer的object query机制引入3D目标检测:
核心创新:
- 使用可学习的3D reference points作为query
- 通过2D-3D几何投影采样多视角特征
- 无需复杂的后处理(NMS等)
架构示意:
Multi-view Images
↓
ResNet50
↓
2D Features
↓
┌──────────────┐
│ 3D-to-2D │
│ Projection │
└──────────────┘
↓
Feature Sampling
↓
Transformer
Decoder
↓
3D Bboxes
BEVDet:纯视觉BEV感知的里程碑
2021年6月,BEVDet提出了LSS(Lift-Splat-Shoot)的改进版本:
关键技术:
- 显式深度估计:为每个像素预测深度分布
- View Transformation:将2D特征"提升"到3D空间
- BEV Encoder:在BEV空间进行特征编码
性能突破:
- nuScenes数据集mAP: 29.8% → 39.2%
- 推理速度:30 FPS on V100
- 纯视觉方案接近LiDAR性能
4.3 Tesla AI Day (2021.8.19):BEV+Transformer的工业化宣言
HydraNet:多头网络的极致设计
Tesla展示的HydraNet震撼了整个行业:
HydraNet架构
┌─────────────────────────────────┐
│ 8个相机 @ 36Hz │
└────────────┬────────────────────┘
↓
┌─────────────────────────────────┐
│ RegNet Backbone │
│ (高效的CNN特征提取器) │
└────────────┬────────────────────┘
↓
┌─────────────────────────────────┐
│ BiFPN多尺度融合 │
└────────────┬────────────────────┘
↓
┌───────┴───────┐
↓ ↓
┌─────────┐ ┌─────────┐
│Transformer│ │CNN Heads│
│ Heads │ │ │
└─────────┘ └─────────┘
↓ ↓
Detection Segmentation
Tracking Depth
Lane Attributes
48个不同的输出头:
- 目标检测(车、人、交通设施等)
- 语义分割(可行驶区域、车道线)
- 深度估计
- 运动预测
- 交通灯状态
- 道路结构理解
Vector Space:从像素到向量
Tesla的Vector Space代表了认知层次的提升:
传统表征 vs Vector Space:
像素级表征: 向量化表征:
████████████ Lane: {
██░░░░██░░░██ type: "divider",
██░░░░██░░░██ points: [(x1,y1), ...],
████████████ confidence: 0.95
}
需要后处理提取语义 直接输出结构化信息
Spatial RNN:时序记忆的引入
Video Module架构:
- 将BEV特征在时间维度上排队
- 使用Spatial RNN维护场景记忆
- Feature queue长度:27帧(~1秒历史)
时间步: t-26 t-25 ... t-1 t
↓ ↓ ↓ ↓
[BEV] [BEV] ... [BEV] [BEV]
↓ ↓ ↓ ↓
┌─────────────────────────┐
│ Spatial RNN │
│ (ConvGRU/ConvLSTM) │
└─────────────────────────┘
↓
时序融合的BEV特征
4.4 中国市场的激进探索与安全警示
2021年8月12日:蔚来ES8 NOP事故
事故概要:
- 地点:福建莆田高速
- 情况:车主启用NOP(Navigate on Pilot)功能
- 结果:撞击高速公路施工区域,车主不幸身亡
技术分析:
- 静态障碍物检测失效:施工锥桶识别不足
- 地图信息滞后:高精地图未更新施工信息
- 预警系统设计缺陷:未能有效提醒驾驶员接管
行业影响:
- 工信部要求车企规范宣传,不得夸大功能
- "自动驾驶"改为"辅助驾驶"成为行业共识
- OTA功能审查趋严
各家应对策略
小鹏汽车:
- 推出"安全驾驶提醒"功能
- 驾驶员监控系统(DMS)强制开启
- NGP使用需要考试认证
理想汽车:
- NOA功能默认关闭
- 多重确认机制
- 强调"人类驾驶员负最终责任"
特斯拉:
- FSD Beta仍未进入中国
- Autopilot功能相对保守
- 加强本土化数据收集
4.5 BEV感知的技术爆发期
2021年下半年到2022年上半年,学术界和工业界围绕BEV感知展开了激烈的技术竞赛。
BEVFormer (2022.3):Query-based的优雅方案
BEVFormer提出了一种基于Transformer的端到端BEV感知框架:
核心创新:
- BEV Queries:预定义的BEV网格查询
- Spatial Cross-Attention:空间注意力机制
- Temporal Self-Attention:时序自注意力
BEVFormer架构
┌────────────────────────────────┐
│ Multi-camera Images @ t │
└────────────┬───────────────────┘
↓
┌──────────────┐
│ Backbone │
│ (ResNet101) │
└──────┬───────┘
↓
┌────────────────┐
│ BEV Queries │←─── Learnable Parameters
│ (H×W×C) │
└────────┬───────┘
↓
┌─────────────────────────┐
│ Spatial Cross-Attention │
│ (Deformable Attention) │
└────────┬─────────────────┘
↓
┌─────────────────────────┐
│ Temporal Self-Attention │←── History BEV @ t-1
└────────┬─────────────────┘
↓
BEV Features
↓
┌────────┴────────┐
↓ ↓
3D Detection Map Segmentation
性能指标:
- nuScenes test: 41.6 mAP, 56.9 NDS
- 计算效率:相比DETR3D减少50%计算量
- 时序融合带来3.5 mAP提升
BEVDepth (2022.6):深度监督的重要性
BEVDepth的核心洞察:准确的深度估计是BEV转换的关键。
技术要点:
- 显式深度监督:使用LiDAR点云生成深度真值
- Camera-aware深度预测:考虑相机内参
- 高效的View Transformer:优化CUDA实现
深度估计网络设计
Image Features ──┬──→ Depth Net ──→ Depth Distribution
│ ↓
Camera Intrinsics┘ Depth Bins
↓
View Transform
↓
BEV Features
关键改进:
- 深度估计精度:相对误差从15%降至9%
- 3D检测性能:47.5 mAP (+8.3 vs baseline)
- 推理速度:41.4 FPS on 3090
PersFormer (2021.10):透视变换的新思路
PersFormer提出了基于透视变换的3D位置编码:
创新点:
- 3D坐标生成:直接在3D空间采样
- 透视感知采样:考虑透视畸变
- 无需深度估计:端到端学习投影
各方案对比分析
| 方法 | 深度估计 | 时序融合 | mAP | NDS | FPS |
| 方法 | 深度估计 | 时序融合 | mAP | NDS | FPS |
|---|---|---|---|---|---|
| BEVDet | 隐式 | × | 39.2 | 47.9 | 30 |
| BEVFormer | 隐式 | ✓ | 41.6 | 56.9 | 10 |
| BEVDepth | 显式监督 | × | 47.5 | 53.5 | 41 |
| PersFormer | 无需 | × | 40.7 | 50.9 | 25 |
4.6 2022年:FSD Beta的大规模验证
版本迭代轨迹
2022年是FSD Beta快速迭代的一年:
V10.x系列(2022.1-6):
- 10.0:首次大规模推送(1000→10000用户)
- 10.2:改进左转判断
- 10.8:城市街道导航能力
- 10.12:蠕行行为优化
V11.x系列(2022.11):
- 统一高速和城市栈
- 单一神经网络处理所有场景
- 取消高速/城市模式切换
真实世界反馈
正面反馈:
- 复杂路口处理能力显著提升
- 无保护左转成功率达到85%
- 施工区域识别准确性提高
持续挑战:
- 行人意图预测仍有不足
- 雨雪天气性能下降明显
- 地图缺失区域表现不稳定
数据飞轮效应
FSD Beta数据循环
┌─────────────┐
│ 用户使用 │
│ (10万+车辆) │
└──────┬──────┘
↓
┌─────────────┐
│ 触发条件 │
│ Shadow Mode │
└──────┬──────┘
↓
┌─────────────┐
│ 数据上传 │
│ (Corner Cases)│
└──────┬──────┘
↓
┌─────────────┐
│ 自动标注 │
│ +人工审核 │
└──────┬──────┘
↓
┌─────────────┐
│ 模型训练 │
│ Dojo超算 │
└──────┬──────┘
↓
┌─────────────┐
│ OTA更新 │
│ (2-4周周期) │
└──────┴──────┘
4.7 Occupancy Network:从检测到理解
为什么需要Occupancy?
传统3D检测的局限:
- 语义类别有限:只能检测预定义类别
- 形状假设过强:用3D框表示所有物体
- 遮挡处理困难:部分可见物体难以准确检测
Occupancy Network的优势:
传统3D检测: Occupancy表征:
┌──┐ ┌──┐ ┌──┐ ████████████████
│车│ │人│ │?│ ██░░██░░████░░██
└──┘ └──┘ └──┘ ██░░░░░░░░░░░░██
████████████████
离散框表示 连续体素表示
类别受限 通用障碍物理解
Tesla的实现(2022 AI Day)
网络结构:
- 体素化表征:200m×200m×20m空间
- 分辨率:0.5m×0.5m×0.5m体素
- 输出通道:占用概率+语义类别
技术细节:
BEV Features
↓
3D Deconvolution
↓
┌─────────────┐
│ Z-Lifting │ (将BEV提升到3D)
└──────┬──────┘
↓
┌─────────────┐
│ 3D ConvNet │
│ (稀疏卷积) │
└──────┬──────┘
↓
Occupancy Volume
- Free Space
- Occupied
- Unknown
国内跟进:OpenOccupancy基准
2022年底,国内团队发布OpenOccupancy:
数据集规模:
- 基于nuScenes扩展
- 200万个3D体素标注
- 16个语义类别
基准方法:
- TPVFormer:三视图表征
- SurroundOcc:环视占用预测
- OccFormer:Transformer-based方案
4.8 向量化地图与在线建图
高精地图的困境
到2022年,高精地图方案的问题日益凸显:
成本问题:
- 制作成本:$1000-2000/公里
- 维护成本:每年10-20%的制作成本
- 中国高速公路:14万公里
- 城市道路:>400万公里
更新延迟:
- 道路施工:数周到数月延迟
- 临时变更:无法及时反映
- 新建道路:半年以上延迟
Neural Map Prior:神经网络地图先验
2022年,多个团队提出用神经网络实时构建地图:
传统方案: 在线建图方案:
┌──────────┐ ┌──────────┐
│ HD Map │ │ Sensors │
│ Database │ └────┬─────┘
└────┬─────┘ ↓
↓ ┌──────────┐
┌──────────┐ │Neural Net│
│Map Match │ └────┬─────┘
└────┬─────┘ ↓
↓ ┌──────────┐
Map Elements │Vector Map│
│(实时生成) │
└──────────┘
HDMapNet (2021.7):开创性工作
核心思想:
- 将地图构建作为语义分割任务
- 直接从图像预测向量化地图元素
- 无需高精地图先验
网络设计:
Multi-view Images
↓
CNN Backbone
↓
View Transform
↓
BEV Features
↓
┌────┴────┐
↓ ↓
Semantic Instance
Seg Seg
↓ ↓
└────┬────┘
↓
Vectorization
↓
Lane Topology
VectorMapNet (2022.6):端到端向量化
改进点:
- 直接输出向量:跳过栅格化步骤
- 自回归解码:逐点生成折线
- 拓扑关系建模:车道连接关系
性能对比: | 方法 | mAP | 推理时间 | 需要HD Map |
| 方法 | mAP | 推理时间 | 需要HD Map |
|---|---|---|---|
| 传统匹配 | 85.2 | 5ms | ✓ |
| HDMapNet | 49.3 | 35ms | × |
| VectorMapNet | 61.8 | 25ms | × |
MapTR (2022.8):Transformer建图
MapTR将地图元素建模为一组可学习的queries:
架构特点:
- 统一的置换等变建模
- 层级query设计
- 端到端可微分
MapTR Query设计
┌─────────────────┐
│ Point Queries │ (关键点)
└────────┬────────┘
↓
┌─────────────────┐
│ Line Queries │ (车道线)
└────────┬────────┘
↓
┌─────────────────┐
│ Polygon Queries │ (区域)
└─────────────────┘
4.9 2022年末:行业格局重塑
小鹏P7高速事故(2022.8.10)
事故经过:
- 地点:宁波某高速
- 场景:前方故障车辆停在车道内
- 结果:NGP未能识别静止车辆,追尾事故
技术反思:
- AEB失效场景:高速静止目标
- 视觉感知盲区:强光/阴影干扰
- 毫米波雷达限制:过滤静止物体
行业技术路线收敛
到2022年底,主要玩家的技术选择趋于一致:
共识形成:
2021年初分歧: 2022年底共识:
┌──────────┐ ┌──────────┐
│多路径探索 │ │ BEV统一 │
├──────────┤ → ├──────────┤
│·2D/3D混合│ │·BEV为核心 │
│·规则主导 │ │·学习为主 │
│·模块分离 │ │·端到端趋势│
└──────────┘ └──────────┘
中国玩家的BEV实践
小鹏汽车XNGP:
- XNet:自研BEV感知网络
- 动态物体:30类识别
- 静态环境:20cm精度建图
理想汽车AD Max:
- 双Orin X芯片
- BEV+Occupancy
- 算法算力协同设计
华为ADS 2.0:
- GOD网络(通用障碍物检测)
- RCR网络(道路拓扑推理)
- 无高精地图依赖
毫末智行:
- Transformer大模型路线
- 时空联合建模
- CLIP视觉-语言预训练
BEV成为事实标准
行业影响:
- 人才流动:BEV/3D视觉人才需求暴增
- 开源生态:OpenMMLab等开源BEV工具链
- 硬件适配:芯片厂商优化BEV算子
- 数据标注:3D标注成为新瓶颈
4.10 本章总结:范式转换的深远影响
技术层面的革命
2021-2022年见证了自动驾驶感知的根本性变革:
从2D到3D的跨越:
- 2D检测的天花板被打破
- 3D空间理解成为标配
- 深度估计成为核心能力
从透视到BEV的统一:
- 多相机融合问题得到解决
- 时序信息自然整合
- 规划控制接口简化
从CNN到Transformer的进化:
- 长程依赖建模能力
- 统一的架构范式
- 更好的扩展性
产业格局的重塑
技术门槛提升:
2020年前: 2022年后:
入门门槛 专业门槛
├─2D检测即可 ├─BEV感知必备
├─开源模型够用 ├─自研架构要求
├─小团队可行 ├─大团队协作
└─10人团队 └─100+人团队
竞争焦点转变:
- 从"能不能做"到"做得多好"
- 从"功能完整"到"体验优化"
- 从"演示Demo"到"量产交付"
中国市场的独特路径
快速跟进与创新:
- 学术突破:BEVFormer等工作获得国际认可
- 工程落地:小鹏/理想/华为快速产品化
- 成本优化:大疆等公司的极致成本控制
事故推动的理性回归:
- 蔚来、小鹏事故引发监管关注
- "自动驾驶"宣传降温
- 用户教育和预期管理加强
关键经验教训
技术层面:
- 统一表征的重要性:BEV提供了感知到规划的统一接口
- 数据驱动的威力:大规模数据+神经网络超越传统方法
- 架构创新的价值:Transformer带来质的飞跃
工程层面:
- 渐进式部署:FSD Beta的迭代验证模式
- 安全冗余设计:多传感器融合仍有价值
- 用户预期管理:技术能力与宣传的平衡
对未来的启示
2021-2022年的BEV革命奠定了后续发展基础:
端到端的必然性:
- BEV统一表征为端到端铺平道路
- 模块边界逐渐模糊
- 数据驱动成为主流
规模化的挑战:
技术验证 → 工程化 → 规模化
完成 进行中 待突破
新的技术前沿:
- 世界模型:从感知到理解
- 生成式方法:从判别到生成
- 大模型驱动:从专用到通用
历史定位
2021-2022年是自动驾驶发展史上的关键节点:
- 技术范式确立:BEV+Transformer成为主流
- 产业格局初定:头部玩家拉开差距
- 商业模式探索:L2+渐进路线获得认可
这两年不仅见证了技术的飞跃,更重要的是确立了自动驾驶的"第一性原理":通过神经网络直接从传感器数据学习驾驶。这一理念的确立,为2023年的端到端革命埋下了伏笔。
正如Tesla AI负责人Andrej Karpathy所说:"Software 2.0时代,我们不再编写程序,而是收集数据、定义损失函数,让神经网络自己学习程序。"BEV革命正是这一理念在自动驾驶领域的完美体现。
第4章完