2021-2022年是自动驾驶感知技术发生根本性变革的两年。如果说2016-2020年是深度学习在自动驾驶中站稳脚跟的阶段,那么这两年则见证了感知架构从2D到3D、从透视图到鸟瞰图(BEV)、从CNN到Transformer的全面升级。
多个技术趋势在2021年形成共振:
BEV(Bird’s Eye View)并非新概念,但将其作为自动驾驶的核心表征却是革命性的:
传统方案:多相机独立感知
┌─────┐ ┌─────┐ ┌─────┐
│前视 │ │左视 │ │右视 │
└──┬──┘ └──┬──┘ └──┬──┘
↓ ↓ ↓
独立2D检测 独立2D检测 独立2D检测
↓ ↓ ↓
└────────┴────────┘
后融合
↓
3D世界理解
BEV方案:统一空间感知
┌─────┐ ┌─────┐ ┌─────┐
│前视 │ │环视 │ │后视 │
└──┬──┘ └──┬──┘ └──┬──┘
└────────┼────────┘
↓
特征级融合
↓
BEV特征图
↓
统一3D感知输出
2021年3月,DETR3D论文发表,首次将Transformer的object query机制引入3D目标检测:
核心创新:
架构示意:
Multi-view Images
↓
ResNet50
↓
2D Features
↓
┌──────────────┐
│ 3D-to-2D │
│ Projection │
└──────────────┘
↓
Feature Sampling
↓
Transformer
Decoder
↓
3D Bboxes
2021年6月,BEVDet提出了LSS(Lift-Splat-Shoot)的改进版本:
关键技术:
性能突破:
Tesla展示的HydraNet震撼了整个行业:
HydraNet架构
┌─────────────────────────────────┐
│ 8个相机 @ 36Hz │
└────────────┬────────────────────┘
↓
┌─────────────────────────────────┐
│ RegNet Backbone │
│ (高效的CNN特征提取器) │
└────────────┬────────────────────┘
↓
┌─────────────────────────────────┐
│ BiFPN多尺度融合 │
└────────────┬────────────────────┘
↓
┌───────┴───────┐
↓ ↓
┌─────────┐ ┌─────────┐
│Transformer│ │CNN Heads│
│ Heads │ │ │
└─────────┘ └─────────┘
↓ ↓
Detection Segmentation
Tracking Depth
Lane Attributes
48个不同的输出头:
Tesla的Vector Space代表了认知层次的提升:
传统表征 vs Vector Space:
像素级表征: 向量化表征:
████████████ Lane: {
██░░░░██░░░██ type: "divider",
██░░░░██░░░██ points: [(x1,y1), ...],
████████████ confidence: 0.95
}
需要后处理提取语义 直接输出结构化信息
Video Module架构:
时间步: t-26 t-25 ... t-1 t
↓ ↓ ↓ ↓
[BEV] [BEV] ... [BEV] [BEV]
↓ ↓ ↓ ↓
┌─────────────────────────┐
│ Spatial RNN │
│ (ConvGRU/ConvLSTM) │
└─────────────────────────┘
↓
时序融合的BEV特征
事故概要:
技术分析:
行业影响:
小鹏汽车:
理想汽车:
特斯拉:
2021年下半年到2022年上半年,学术界和工业界围绕BEV感知展开了激烈的技术竞赛。
BEVFormer提出了一种基于Transformer的端到端BEV感知框架:
核心创新:
BEVFormer架构
┌────────────────────────────────┐
│ Multi-camera Images @ t │
└────────────┬───────────────────┘
↓
┌──────────────┐
│ Backbone │
│ (ResNet101) │
└──────┬───────┘
↓
┌────────────────┐
│ BEV Queries │←─── Learnable Parameters
│ (H×W×C) │
└────────┬───────┘
↓
┌─────────────────────────┐
│ Spatial Cross-Attention │
│ (Deformable Attention) │
└────────┬─────────────────┘
↓
┌─────────────────────────┐
│ Temporal Self-Attention │←── History BEV @ t-1
└────────┬─────────────────┘
↓
BEV Features
↓
┌────────┴────────┐
↓ ↓
3D Detection Map Segmentation
性能指标:
BEVDepth的核心洞察:准确的深度估计是BEV转换的关键。
技术要点:
深度估计网络设计
Image Features ──┬──→ Depth Net ──→ Depth Distribution
│ ↓
Camera Intrinsics┘ Depth Bins
↓
View Transform
↓
BEV Features
关键改进:
PersFormer提出了基于透视变换的3D位置编码:
创新点:
| 方法 | 深度估计 | 时序融合 | mAP | NDS | FPS |
|---|---|---|---|---|---|
| BEVDet | 隐式 | × | 39.2 | 47.9 | 30 |
| BEVFormer | 隐式 | ✓ | 41.6 | 56.9 | 10 |
| BEVDepth | 显式监督 | × | 47.5 | 53.5 | 41 |
| PersFormer | 无需 | × | 40.7 | 50.9 | 25 |
2022年是FSD Beta快速迭代的一年:
V10.x系列(2022.1-6):
V11.x系列(2022.11):
正面反馈:
持续挑战:
FSD Beta数据循环
┌─────────────┐
│ 用户使用 │
│ (10万+车辆) │
└──────┬──────┘
↓
┌─────────────┐
│ 触发条件 │
│ Shadow Mode │
└──────┬──────┘
↓
┌─────────────┐
│ 数据上传 │
│ (Corner Cases)│
└──────┬──────┘
↓
┌─────────────┐
│ 自动标注 │
│ +人工审核 │
└──────┬──────┘
↓
┌─────────────┐
│ 模型训练 │
│ Dojo超算 │
└──────┬──────┘
↓
┌─────────────┐
│ OTA更新 │
│ (2-4周周期) │
└──────┴──────┘
传统3D检测的局限:
Occupancy Network的优势:
传统3D检测: Occupancy表征:
┌──┐ ┌──┐ ┌──┐ ████████████████
│车│ │人│ │?│ ██░░██░░████░░██
└──┘ └──┘ └──┘ ██░░░░░░░░░░░░██
████████████████
离散框表示 连续体素表示
类别受限 通用障碍物理解
网络结构:
技术细节:
BEV Features
↓
3D Deconvolution
↓
┌─────────────┐
│ Z-Lifting │ (将BEV提升到3D)
└──────┬──────┘
↓
┌─────────────┐
│ 3D ConvNet │
│ (稀疏卷积) │
└──────┬──────┘
↓
Occupancy Volume
- Free Space
- Occupied
- Unknown
2022年底,国内团队发布OpenOccupancy:
数据集规模:
基准方法:
到2022年,高精地图方案的问题日益凸显:
成本问题:
更新延迟:
2022年,多个团队提出用神经网络实时构建地图:
传统方案: 在线建图方案:
┌──────────┐ ┌──────────┐
│ HD Map │ │ Sensors │
│ Database │ └────┬─────┘
└────┬─────┘ ↓
↓ ┌──────────┐
┌──────────┐ │Neural Net│
│Map Match │ └────┬─────┘
└────┬─────┘ ↓
↓ ┌──────────┐
Map Elements │Vector Map│
│(实时生成) │
└──────────┘
核心思想:
网络设计:
Multi-view Images
↓
CNN Backbone
↓
View Transform
↓
BEV Features
↓
┌────┴────┐
↓ ↓
Semantic Instance
Seg Seg
↓ ↓
└────┬────┘
↓
Vectorization
↓
Lane Topology
改进点:
性能对比: | 方法 | mAP | 推理时间 | 需要HD Map | |——|—–|———|————| | 传统匹配 | 85.2 | 5ms | ✓ | | HDMapNet | 49.3 | 35ms | × | | VectorMapNet | 61.8 | 25ms | × |
MapTR将地图元素建模为一组可学习的queries:
架构特点:
MapTR Query设计
┌─────────────────┐
│ Point Queries │ (关键点)
└────────┬────────┘
↓
┌─────────────────┐
│ Line Queries │ (车道线)
└────────┬────────┘
↓
┌─────────────────┐
│ Polygon Queries │ (区域)
└─────────────────┘
事故经过:
技术反思:
到2022年底,主要玩家的技术选择趋于一致:
共识形成:
2021年初分歧: 2022年底共识:
┌──────────┐ ┌──────────┐
│多路径探索 │ │ BEV统一 │
├──────────┤ → ├──────────┤
│·2D/3D混合│ │·BEV为核心 │
│·规则主导 │ │·学习为主 │
│·模块分离 │ │·端到端趋势│
└──────────┘ └──────────┘
小鹏汽车XNGP:
理想汽车AD Max:
华为ADS 2.0:
毫末智行:
行业影响:
2021-2022年见证了自动驾驶感知的根本性变革:
从2D到3D的跨越:
从透视到BEV的统一:
从CNN到Transformer的进化:
技术门槛提升:
2020年前: 2022年后:
入门门槛 专业门槛
├─2D检测即可 ├─BEV感知必备
├─开源模型够用 ├─自研架构要求
├─小团队可行 ├─大团队协作
└─10人团队 └─100+人团队
竞争焦点转变:
快速跟进与创新:
事故推动的理性回归:
技术层面:
工程层面:
2021-2022年的BEV革命奠定了后续发展基础:
端到端的必然性:
规模化的挑战:
技术验证 → 工程化 → 规模化
完成 进行中 待突破
新的技术前沿:
2021-2022年是自动驾驶发展史上的关键节点:
这两年不仅见证了技术的飞跃,更重要的是确立了自动驾驶的”第一性原理”:通过神经网络直接从传感器数据学习驾驶。这一理念的确立,为2023年的端到端革命埋下了伏笔。
正如Tesla AI负责人Andrej Karpathy所说:”Software 2.0时代,我们不再编写程序,而是收集数据、定义损失函数,让神经网络自己学习程序。”BEV革命正是这一理念在自动驾驶领域的完美体现。
第4章完