self_driving_algo

第4章:BEV与Transformer变革 (2021-2022)

4.1 引言:感知范式的根本性转变

2021-2022年是自动驾驶感知技术发生根本性变革的两年。如果说2016-2020年是深度学习在自动驾驶中站稳脚跟的阶段,那么这两年则见证了感知架构从2D到3D、从透视图到鸟瞰图(BEV)、从CNN到Transformer的全面升级。

为什么是2021年?

多个技术趋势在2021年形成共振:

  1. 算力突破临界点:车规级芯片算力突破100 TOPS,使得复杂的BEV转换和Transformer计算成为可能
  2. Transformer在CV领域成熟:ViT、DETR等工作证明了Transformer在视觉任务上的有效性
  3. 数据规模效应显现:Tesla积累的数十亿英里行驶数据开始展现威力
  4. 高精地图的局限性暴露:维护成本高、更新慢、覆盖范围有限

BEV:统一的表征空间

BEV(Bird’s Eye View)并非新概念,但将其作为自动驾驶的核心表征却是革命性的:

传统方案:多相机独立感知
┌─────┐  ┌─────┐  ┌─────┐
│前视  │  │左视  │  │右视  │
└──┬──┘  └──┬──┘  └──┬──┘
   ↓        ↓        ↓
独立2D检测  独立2D检测  独立2D检测
   ↓        ↓        ↓
   └────────┴────────┘
         后融合
           ↓
       3D世界理解

BEV方案:统一空间感知
┌─────┐  ┌─────┐  ┌─────┐
│前视  │  │环视  │  │后视  │
└──┬──┘  └──┬──┘  └──┬──┘
   └────────┼────────┘
           ↓
      特征级融合
           ↓
      BEV特征图
           ↓
    统一3D感知输出

4.2 2021年上半年:BEV感知的学术探索

DETR3D:开创性的端到端3D检测

2021年3月,DETR3D论文发表,首次将Transformer的object query机制引入3D目标检测:

核心创新

架构示意

Multi-view Images
      ↓
   ResNet50
      ↓
  2D Features
      ↓
┌──────────────┐
│  3D-to-2D    │
│  Projection  │
└──────────────┘
      ↓
Feature Sampling
      ↓
  Transformer
    Decoder
      ↓
  3D Bboxes

BEVDet:纯视觉BEV感知的里程碑

2021年6月,BEVDet提出了LSS(Lift-Splat-Shoot)的改进版本:

关键技术

  1. 显式深度估计:为每个像素预测深度分布
  2. View Transformation:将2D特征”提升”到3D空间
  3. BEV Encoder:在BEV空间进行特征编码

性能突破

4.3 Tesla AI Day (2021.8.19):BEV+Transformer的工业化宣言

HydraNet:多头网络的极致设计

Tesla展示的HydraNet震撼了整个行业:

                HydraNet架构
    ┌─────────────────────────────────┐
    │        8个相机 @ 36Hz            │
    └────────────┬────────────────────┘
                 ↓
    ┌─────────────────────────────────┐
    │     RegNet Backbone              │
    │   (高效的CNN特征提取器)           │
    └────────────┬────────────────────┘
                 ↓
    ┌─────────────────────────────────┐
    │     BiFPN多尺度融合               │
    └────────────┬────────────────────┘
                 ↓
         ┌───────┴───────┐
         ↓               ↓
    ┌─────────┐    ┌─────────┐
    │Transformer│    │CNN Heads│
    │  Heads   │    │         │
    └─────────┘    └─────────┘
         ↓               ↓
    Detection      Segmentation
    Tracking       Depth
    Lane           Attributes

48个不同的输出头

Vector Space:从像素到向量

Tesla的Vector Space代表了认知层次的提升:

传统表征 vs Vector Space

像素级表征:              向量化表征:
████████████             Lane: {
██░░░░██░░░██              type: "divider",
██░░░░██░░░██              points: [(x1,y1), ...],
████████████               confidence: 0.95
                         }
需要后处理提取语义        直接输出结构化信息

Spatial RNN:时序记忆的引入

Video Module架构

时间步: t-26  t-25  ...  t-1   t
        ↓     ↓         ↓    ↓
      [BEV] [BEV] ... [BEV] [BEV]
        ↓     ↓         ↓    ↓
      ┌─────────────────────────┐
      │    Spatial RNN           │
      │  (ConvGRU/ConvLSTM)      │
      └─────────────────────────┘
                ↓
        时序融合的BEV特征

4.4 中国市场的激进探索与安全警示

2021年8月12日:蔚来ES8 NOP事故

事故概要

技术分析

  1. 静态障碍物检测失效:施工锥桶识别不足
  2. 地图信息滞后:高精地图未更新施工信息
  3. 预警系统设计缺陷:未能有效提醒驾驶员接管

行业影响

各家应对策略

小鹏汽车

理想汽车

特斯拉

4.5 BEV感知的技术爆发期

2021年下半年到2022年上半年,学术界和工业界围绕BEV感知展开了激烈的技术竞赛。

BEVFormer (2022.3):Query-based的优雅方案

BEVFormer提出了一种基于Transformer的端到端BEV感知框架:

核心创新

  1. BEV Queries:预定义的BEV网格查询
  2. Spatial Cross-Attention:空间注意力机制
  3. Temporal Self-Attention:时序自注意力
BEVFormer架构
┌────────────────────────────────┐
│   Multi-camera Images @ t       │
└────────────┬───────────────────┘
             ↓
     ┌──────────────┐
     │   Backbone   │
     │  (ResNet101) │
     └──────┬───────┘
             ↓
    ┌────────────────┐
    │  BEV Queries   │←─── Learnable Parameters
    │  (H×W×C)       │
    └────────┬───────┘
             ↓
    ┌─────────────────────────┐
    │  Spatial Cross-Attention │
    │  (Deformable Attention)  │
    └────────┬─────────────────┘
             ↓
    ┌─────────────────────────┐
    │ Temporal Self-Attention  │←── History BEV @ t-1
    └────────┬─────────────────┘
             ↓
         BEV Features
             ↓
    ┌────────┴────────┐
    ↓                 ↓
3D Detection    Map Segmentation

性能指标

BEVDepth (2022.6):深度监督的重要性

BEVDepth的核心洞察:准确的深度估计是BEV转换的关键。

技术要点

  1. 显式深度监督:使用LiDAR点云生成深度真值
  2. Camera-aware深度预测:考虑相机内参
  3. 高效的View Transformer:优化CUDA实现
深度估计网络设计
Image Features ──┬──→ Depth Net ──→ Depth Distribution
                 │                         ↓
Camera Intrinsics┘                   Depth Bins
                                          ↓
                                    View Transform
                                          ↓
                                     BEV Features

关键改进

PersFormer (2021.10):透视变换的新思路

PersFormer提出了基于透视变换的3D位置编码:

创新点

  1. 3D坐标生成:直接在3D空间采样
  2. 透视感知采样:考虑透视畸变
  3. 无需深度估计:端到端学习投影

各方案对比分析

方法 深度估计 时序融合 mAP NDS FPS
BEVDet 隐式 × 39.2 47.9 30
BEVFormer 隐式 41.6 56.9 10
BEVDepth 显式监督 × 47.5 53.5 41
PersFormer 无需 × 40.7 50.9 25

4.6 2022年:FSD Beta的大规模验证

版本迭代轨迹

2022年是FSD Beta快速迭代的一年:

V10.x系列(2022.1-6)

V11.x系列(2022.11)

真实世界反馈

正面反馈

持续挑战

数据飞轮效应

FSD Beta数据循环
┌─────────────┐
│  用户使用    │
│  (10万+车辆) │
└──────┬──────┘
       ↓
┌─────────────┐
│  触发条件    │
│  Shadow Mode │
└──────┬──────┘
       ↓
┌─────────────┐
│  数据上传    │
│  (Corner Cases)│
└──────┬──────┘
       ↓
┌─────────────┐
│  自动标注    │
│  +人工审核   │
└──────┬──────┘
       ↓
┌─────────────┐
│  模型训练    │
│  Dojo超算    │
└──────┬──────┘
       ↓
┌─────────────┐
│  OTA更新     │
│  (2-4周周期) │
└──────┴──────┘

4.7 Occupancy Network:从检测到理解

为什么需要Occupancy?

传统3D检测的局限:

  1. 语义类别有限:只能检测预定义类别
  2. 形状假设过强:用3D框表示所有物体
  3. 遮挡处理困难:部分可见物体难以准确检测

Occupancy Network的优势:

传统3D检测:              Occupancy表征:
┌──┐ ┌──┐ ┌──┐          ████████████████
│车│ │人│ │?│          ██░░██░░████░░██
└──┘ └──┘ └──┘          ██░░░░░░░░░░░░██
                         ████████████████
离散框表示                连续体素表示
类别受限                  通用障碍物理解

Tesla的实现(2022 AI Day)

网络结构

  1. 体素化表征:200m×200m×20m空间
  2. 分辨率:0.5m×0.5m×0.5m体素
  3. 输出通道:占用概率+语义类别

技术细节

BEV Features
     ↓
3D Deconvolution
     ↓
┌─────────────┐
│  Z-Lifting   │ (将BEV提升到3D)
└──────┬──────┘
       ↓
┌─────────────┐
│ 3D ConvNet   │
│  (稀疏卷积)  │
└──────┬──────┘
       ↓
Occupancy Volume
  - Free Space
  - Occupied
  - Unknown

国内跟进:OpenOccupancy基准

2022年底,国内团队发布OpenOccupancy:

数据集规模

基准方法

4.8 向量化地图与在线建图

高精地图的困境

到2022年,高精地图方案的问题日益凸显:

成本问题

更新延迟

Neural Map Prior:神经网络地图先验

2022年,多个团队提出用神经网络实时构建地图:

传统方案:                在线建图方案:
┌──────────┐            ┌──────────┐
│ HD Map   │            │ Sensors  │
│ Database │            └────┬─────┘
└────┬─────┘                 ↓
     ↓                  ┌──────────┐
┌──────────┐            │Neural Net│
│Map Match │            └────┬─────┘
└────┬─────┘                 ↓
     ↓                  ┌──────────┐
Map Elements            │Vector Map│
                        │(实时生成) │
                        └──────────┘

HDMapNet (2021.7):开创性工作

核心思想

网络设计

Multi-view Images
        ↓
   CNN Backbone
        ↓
   View Transform
        ↓
    BEV Features
        ↓
   ┌────┴────┐
   ↓         ↓
Semantic  Instance
  Seg       Seg
   ↓         ↓
   └────┬────┘
        ↓
  Vectorization
        ↓
  Lane Topology

VectorMapNet (2022.6):端到端向量化

改进点

  1. 直接输出向量:跳过栅格化步骤
  2. 自回归解码:逐点生成折线
  3. 拓扑关系建模:车道连接关系

性能对比: | 方法 | mAP | 推理时间 | 需要HD Map | |——|—–|———|————| | 传统匹配 | 85.2 | 5ms | ✓ | | HDMapNet | 49.3 | 35ms | × | | VectorMapNet | 61.8 | 25ms | × |

MapTR (2022.8):Transformer建图

MapTR将地图元素建模为一组可学习的queries:

架构特点

MapTR Query设计
┌─────────────────┐
│ Point Queries   │ (关键点)
└────────┬────────┘
         ↓
┌─────────────────┐
│ Line Queries    │ (车道线)
└────────┬────────┘
         ↓
┌─────────────────┐
│ Polygon Queries │ (区域)
└─────────────────┘

4.9 2022年末:行业格局重塑

小鹏P7高速事故(2022.8.10)

事故经过

技术反思

  1. AEB失效场景:高速静止目标
  2. 视觉感知盲区:强光/阴影干扰
  3. 毫米波雷达限制:过滤静止物体

行业技术路线收敛

到2022年底,主要玩家的技术选择趋于一致:

共识形成

2021年初分歧:           2022年底共识:
┌──────────┐           ┌──────────┐
│多路径探索 │           │ BEV统一   │
├──────────┤    →      ├──────────┤
│·2D/3D混合│           │·BEV为核心 │
│·规则主导 │           │·学习为主 │
│·模块分离 │           │·端到端趋势│
└──────────┘           └──────────┘

中国玩家的BEV实践

小鹏汽车XNGP

理想汽车AD Max

华为ADS 2.0

毫末智行

BEV成为事实标准

行业影响

  1. 人才流动:BEV/3D视觉人才需求暴增
  2. 开源生态:OpenMMLab等开源BEV工具链
  3. 硬件适配:芯片厂商优化BEV算子
  4. 数据标注:3D标注成为新瓶颈

4.10 本章总结:范式转换的深远影响

技术层面的革命

2021-2022年见证了自动驾驶感知的根本性变革:

从2D到3D的跨越

从透视到BEV的统一

从CNN到Transformer的进化

产业格局的重塑

技术门槛提升

2020年前:              2022年后:
入门门槛                专业门槛
├─2D检测即可            ├─BEV感知必备
├─开源模型够用          ├─自研架构要求
├─小团队可行            ├─大团队协作
└─10人团队              └─100+人团队

竞争焦点转变

中国市场的独特路径

快速跟进与创新

  1. 学术突破:BEVFormer等工作获得国际认可
  2. 工程落地:小鹏/理想/华为快速产品化
  3. 成本优化:大疆等公司的极致成本控制

事故推动的理性回归

关键经验教训

技术层面

  1. 统一表征的重要性:BEV提供了感知到规划的统一接口
  2. 数据驱动的威力:大规模数据+神经网络超越传统方法
  3. 架构创新的价值:Transformer带来质的飞跃

工程层面

  1. 渐进式部署:FSD Beta的迭代验证模式
  2. 安全冗余设计:多传感器融合仍有价值
  3. 用户预期管理:技术能力与宣传的平衡

对未来的启示

2021-2022年的BEV革命奠定了后续发展基础:

端到端的必然性

规模化的挑战

技术验证 → 工程化 → 规模化
  完成      进行中    待突破

新的技术前沿

历史定位

2021-2022年是自动驾驶发展史上的关键节点:

  1. 技术范式确立:BEV+Transformer成为主流
  2. 产业格局初定:头部玩家拉开差距
  3. 商业模式探索:L2+渐进路线获得认可

这两年不仅见证了技术的飞跃,更重要的是确立了自动驾驶的”第一性原理”:通过神经网络直接从传感器数据学习驾驶。这一理念的确立,为2023年的端到端革命埋下了伏笔。

正如Tesla AI负责人Andrej Karpathy所说:”Software 2.0时代,我们不再编写程序,而是收集数据、定义损失函数,让神经网络自己学习程序。”BEV革命正是这一理念在自动驾驶领域的完美体现。


第4章完