第4章：深度学习在自动驾驶感知中的应用

深度学习技术，特别是Transformer架构的出现，正在彻底改变自动驾驶感知系统的设计范式。从2020年Vision Transformer (ViT)的提出，到2023-2024年各种BEV统一感知架构的成熟，深度学习不仅提升了感知精度，更重要的是提供了端到端优化的可能性。本章将深入探讨这些革命性技术如何解决传统计算机视觉方法的局限性，实现更鲁棒、更通用的自动驾驶感知。

本章学习目标：

掌握Transformer在视觉任务中的应用原理和优化技术
理解DETR系列检测器的端到端检测范式
深入理解BEV统一表示的构建方法和优势
掌握自监督学习在减少标注依赖中的作用
了解最新的占用网格和神经辐射场技术

前置知识要求：

熟悉深度学习基础（CNN、注意力机制）
了解基本的3D几何和相机投影原理
有PyTorch/TensorFlow编程经验

4.1 Vision Transformer及其变体

4.1.1 ViT原理与自动驾驶适配

Vision Transformer打破了卷积神经网络(CNN)在视觉任务中的垄断地位。其核心思想是将图像划分为固定大小的patch序列，通过自注意力机制建模全局依赖关系。

为什么Transformer适合自动驾驶？

全局感受野：不同于CNN的局部感受野限制，Transformer从第一层就能建模全局关系，这对于理解复杂交通场景至关重要。例如，远处的交通灯状态可能影响近处车辆的行为预测。
灵活的归纳偏置：CNN的平移不变性在某些驾驶场景下是劣势。道路标志在图像不同位置有不同含义（左转箭头在左车道vs右车道），Transformer能更好地建模这种位置相关的语义。
多模态融合天然优势：Transformer统一处理不同模态（图像、点云、地图）为token序列，避免了复杂的融合设计。

输入图像 (H×W×3)
    ↓
Patch划分 (N个16×16 patches)
    ↓
线性投影 + 位置编码
    ↓
[CLS] token + Patch tokens
    ↓
L层 Transformer Encoder
    ↓
特征表示

自动驾驶场景的特殊考虑：

多分辨率需求：远处小目标vs近处大目标 - Rule of thumb: 使用金字塔结构，远处区域用小patch(8×8)，近处用大patch(32×32) - 实践案例：Tesla FSD将图像分为3个分辨率区域，底部(近处)用32×32 patch，中部16×16，顶部(远处)8×8 - 效果：相同计算量下，小目标检测召回率提升15%
计算资源约束：车载平台算力有限 - Rule of thumb: Token数量控制在1000以内，使用稀疏注意力减少复杂度 - 硬件基准：NVIDIA Orin (275 TOPS) 可支持 ~800 tokens @ 30Hz - 优化技巧：
- 动态token选择：根据场景复杂度调整token数量
- 层级剪枝：浅层用更多tokens，深层逐渐减少
- 混合精度推理：注意力计算用FP16，其他用INT8
时序连续性：利用帧间相关性 - Rule of thumb: 复用前帧70%的token计算，仅更新变化区域 - 实现方式：
- 运动补偿：根据ego motion对齐前帧特征
- 增量更新：只对IoU < 0.7的区域重新计算
- 特征缓存：维护最近4帧的特征缓存池
- 加速效果：降低60%计算量，延迟从33ms降至13ms

4.1.2 Swin Transformer与多尺度特征

Swin Transformer通过移动窗口机制解决了ViT的计算复杂度问题，特别适合自动驾驶的多尺度检测需求。

Swin Transformer的架构创新：

传统ViT的quadratic复杂度(O(N²))在高分辨率图像上不可承受。例如，1920×1080图像用16×16 patch产生8100个tokens，自注意力需要65M次计算。Swin通过层级结构和窗口注意力将其降至线性复杂度。

Stage 1: 4×4 patch, C维特征
    ↓ (Patch Merging)
Stage 2: 8×8 patch, 2C维特征
    ↓ (Patch Merging)
Stage 3: 16×16 patch, 4C维特征
    ↓ (Patch Merging)
Stage 4: 32×32 patch, 8C维特征

关键创新：

窗口内自注意力：将注意力限制在M×M窗口内，复杂度从O(N²)降至O(N)
窗口大小选择：M=7在ImageNet上最优，但自动驾驶场景M=14效果更好（更大感受野）
边界处理：padding或cyclic shift，后者无需额外计算
移动窗口：通过窗口偏移实现跨窗口信息交互
Shift策略：每层交替shift (M/2, M/2)像素
信息传播：经过4层后，信息可传播到28×28区域
实现技巧：使用masked attention避免重新分割窗口
相对位置编码：更好地建模空间关系
范围：[-M+1, M-1] × [-M+1, M-1]
参数量：(2M-1)² 个可学习参数
优势：相比绝对位置编码，泛化到不同分辨率能力更强

Swin变体选择指南：

Swin-T (28M params): 边缘设备，实时性要求高
Swin-S (50M params): 平衡精度和速度
Swin-B (88M params): 高精度离线处理
Swin-L (197M params): 数据中心训练和验证

性能指标 (基于nuScenes数据集)：

Swin-T: 81.2% mAP, 42 FPS, 4.5GB GPU Memory
Swin-S: 83.1% mAP, 35 FPS, 6.2GB GPU Memory
Swin-B: 84.5% mAP, 28 FPS, 8.7GB GPU Memory
ResNet-101基线: 76.3% mAP, 35 FPS, 3.8GB GPU Memory
ConvNeXt-B (2022): 82.7% mAP, 31 FPS, 7.2GB GPU Memory

实际部署考虑：

内存带宽瓶颈：Transformer的内存访问模式不规则，带宽利用率仅60%（CNN可达85%）
TensorRT优化：使用Flash Attention插件，推理加速2.3倍
多摄像头并行：6个相机可以batch处理，吞吐量提升4倍

4.1.3 计算效率优化策略

Flash Attention - 内存访问优化：块级计算减少HBM访问 * 核心思想：将attention计算重新组织为tiling形式，利用GPU SRAM * 内存复杂度：从O(N²)降至O(N) * IO复杂度：从O(N²d)降至O(N²d/M)，其中M为SRAM大小 - 加速比：标准注意力的2-4倍 * A100 GPU: 3.2倍加速 * V100 GPU: 2.8倍加速 * Orin SoC: 2.1倍加速（内存带宽更低） - Rule of thumb: 序列长度>1024时效果显著 - 实际应用：BEVFormer使用Flash Attention后，训练速度提升40%，显存占用减少35%
Token Pruning - 动态丢弃低重要性token * 重要性度量：基于注意力分数、梯度范数或学习的重要性预测器 * 剪枝策略：
- 逐层剪枝：每层剪掉10%，总体保留60%
- 区域感知剪枝：天空区域剪枝80%，道路区域保留95%
- 动态剪枝：根据场景复杂度调整剪枝率
- 保持性能下降<1%的前提下减少30-50% tokens
- Rule of thumb: 保留注意力分数top-70%的tokens
- 实验结果：
- DeiT-S + 50%剪枝: 81.2% → 80.8% mAP, 2.1倍加速
- Swin-B + 30%剪枝: 84.5% → 84.1% mAP, 1.5倍加速
Knowledge Distillation - 大模型指导小模型训练 - 典型配置：Swin-B (teacher) → Swin-T (student) * 训练策略：
- 阶段1: 仅用teacher的soft labels训练 (20 epochs)
- 阶段2: 结合hard labels和soft labels (50 epochs)
- 阶段3: fine-tuning仅用hard labels (10 epochs)
- 温度参数: T=4.0效果最佳
- 损失权重: α=0.7 (distillation) + 0.3 (ground truth)
- 性能保持95%，速度提升3倍
- 高级技巧：
- 特征蒸馏：不仅蒸馏最终输出，还包括中间层特征
- 注意力蒸馏：让student学习teacher的注意力模式
- 在线蒸馏：teacher和student同时训练，动态更新

4.2 DETR系列检测器

4.2.1 端到端目标检测范式

DETR (DEtection TRansformer)消除了传统检测器的手工设计组件(NMS、anchor等)，实现真正的端到端训练。

DETR的革命性之处：

去除NMS：传统检测器会产生大量重叠检测框，需要NMS后处理。DETR直接输出固定数量（如100个）的预测，通过二分图匹配确保一对一对应。
去除Anchor：不需要预定义anchor的尺寸、长宽比，避免了超参数调优的麻烦。Object queries直接学习“去哪里找目标”。
全局推理：通过Transformer的全局注意力，可以更好地处理遮挡、重叠等复杂场景。

CNN Backbone
    ↓
Transformer Encoder (全局特征建模)
    ↓
Object Queries (可学习的检测槽位)
    ↓
Transformer Decoder (查询-特征交互)
    ↓
预测头 (类别 + 边界框)

核心机制：

二分图匹配：使用匈牙利算法进行预测与真值的最优匹配
匹配成本计算：

cost = λ_cls × cls_cost + λ_box × box_cost + λ_giou × giou_cost

典型权重：λ_cls=1, λ_box=5, λ_giou=2
匹配复杂度：O(N³)，但N通常较小（<100）
Set-based Loss：无需NMS的集合预测损失
分类损失：Focal Loss或Cross Entropy
回归损失：L1 Loss + GIoU Loss
背景类处理：未匹配的queries被视为背景，使用较小权重

Object Queries的理解：

数量：通常设置为100或300，大于场景中最大目标数
初始化：随机初始化或使用位置先验
学习过程：每个query逐渐专门化，负责检测特定位置/类别的目标
可视化：query的注意力图显示它们关注不同的图像区域

优势与挑战：

✓ 无需anchor设计和NMS后处理
✓ 全局推理能力强
✓ 易于扩展到其他任务（分割、关键点检测）
✗ 收敛速度慢(需要500 epochs vs YOLO的100 epochs)
原因：query需要从零开始学习“什么是目标”
解决：Deformable DETR使用可变形注意力，减少到50 epochs
✗ 小目标检测性能较弱
原因：缺少FPN多尺度特征
解决：加入多尺度特征，使用辅助损失

DETR改进系列：

Deformable DETR (2021): 可变形注意力，50 epochs收敛
Conditional DETR (2021): 条件化queries，加速收敛
DAB-DETR (2022): 动态anchor boxes作为queries
DN-DETR (2022): 加入噪声标签，加速训练
DINO (2023): 融合以上所有改进，达到SOTA性能

4.2.2 DETR3D：3D空间的查询机制

DETR3D将DETR扩展到3D检测，通过3D空间的object queries直接预测3D边界框。

从2D到3D的挑战：

深度歧义性：单目图像无法确定绝对深度
多视图融合：需要处理不同视角的特征对齐
遮挡处理：目标可能只在部分视图可见
计算复杂度：3D空间采样点数量巨大

关键创新：

3D Reference Points：每个query关联一个3D空间位置 - 初始化策略：均匀分布在驾驶空间（-51.2m到51.2m, 0到61.4m, -5m到3m） - 可学习偏移：query可以学习调整其参考点位置 - 分层细化：每层decoder后更新参考点
多视图特征采样：将3D点投影到多个相机视图 - 投影计算：

[u, v, 1]^T = K × [R|t] × [x, y, z, 1]^T

可见性判断：检查投影点是否在图像范围内
特征插值：双线性插值获取亚像素特征

3D位置编码：编码深度和3D空间关系 - 相机射线编码：编码从相机中心到3D点的方向 - 深度编码：使用正弦位置编码表示深度 - 相机内外参编码：将标定参数融入特征

3D Object Query (x,y,z)
    ↓
投影到多视图 → 2D特征采样
    ↓
特征聚合 (加权平均或注意力)
    ↓
Transformer Decoder更新
    ↓
3D Box (x,y,z,l,w,h,θ)

性能基准 (nuScenes val set)：

DETR3D: 34.6% mAP, 41.2% NDS, 15 FPS
DETR3D + CBGS: 34.9% mAP, 42.2% NDS, 14 FPS
PETR: 36.1% mAP, 44.1% NDS, 12 FPS
PETRv2: 38.2% mAP, 45.6% NDS, 11 FPS
StreamPETR: 37.8% mAP, 45.0% NDS, 32 FPS (利用时序)
BEVDet (对比): 31.2% mAP, 39.6% NDS, 18 FPS

实际部署优化：

内存优化：使用gradient checkpointing，显存减少40%
量化部署：Mixed precision (FP16) 加速1.8倍
批处理：6个相机可以batch=6并行处理

4.2.3 多视图融合策略

早期融合 vs 后期融合：

图像级融合 (早期)： - 将多视图图像拼接或编码后融合 - 优点：共享特征提取，参数效率高 - 缺点：难以处理视角差异 - 实现示例：
- OmniDet: 6个相机图像拼成全景图
- 输入尺寸: 3840×640 (拼接后)
- 效果: 参数量减少60%，但精度下降5%
特征级融合 (中期)： - 在BEV空间或3D空间融合特征 - 优点：几何一致性好 - 缺点：需要精确标定 - 实现方式：
- IPM (Inverse Perspective Mapping): 假设平坦地面
- LSS (Lift-Splat-Shoot): 显式深度估计
- Transformer: 隐式学习投影关系
- 标定要求: 相机外参误差<5cm, 旋转误差<0.5°
决策级融合 (后期)： - 各视图独立检测后融合结果 - 优点：模块化，易于调试 - 缺点：无法利用互补信息 - 融合策略：
- NMS: 移除重复检测
- 加权平均: 根据置信度加权
- 贝叶斯融合: 考虑不确定性

Rule of thumb：

6个及以下相机：特征级融合最优
典型配置: 前3 + 后3或环视6个
内存需求: ~8GB GPU内存
8个以上相机：考虑分组处理+决策级融合
分组方案: 前方组(3个) + 侧方组(4个) + 后方组(3个)
并行处理: 每组独立GPU或流水线
实时性要求高：图像级融合+轻量backbone
目标延迟: <100ms
Backbone选择: MobileNet、EfficientNet

融合效果对比 (nuScenes):

单相机: 28.3% mAP
6相机决策级: 35.2% mAP (+6.9%)
6相机特征级: 41.5% mAP (+13.2%)
6相机+时序: 45.8% mAP (+17.5%)

4.3 BEV感知网络

4.3.1 BEVFormer架构详解

BEVFormer通过空间和时序transformer实现多视图到BEV的特征转换，是目前最成功的BEV感知架构之一。

BEVFormer的设计动机：

传统方法如LSS需要显式的深度估计，这在没有LiDAR监督时效果较差。BEVFormer通过注意力机制隐式学习从2D到BEV的映射，避免了深度估计的中间步骤。

核心思想：

BEV空间被划分为H×W的网格，每个网格对应一个BEV query
每个BEV query通过注意力机制从多视图特征中聚合信息
时序信息通过对齐历史BEV特征来融合

多视图图像
    ↓
Backbone (ResNet/Swin)
    ↓
多尺度特征 {1/8, 1/16, 1/32}
    ↓
BEV Queries (H×W网格)
    ↓
空间Cross-Attention (BEV→2D)
    ↓
时序Self-Attention (BEV_t→BEV_{t-1})
    ↓
BEV特征图
    ↓
检测/分割头

核心组件：

Spatial Cross-Attention： - 每个BEV位置查询对应3D空间的柱体
- 柱体定义: 从地面-5m到10m高度
- 采样点数: 每个柱体4个高度，每个高度4个参考点
- 柱体采样点投影到各相机视图
- 投影计算: 3D→>2D使用相机内外参
- 可见性判断: 剔除视野外的点
- Deformable attention聚合多视图特征
- 参考点数: K=4 (每个视图)
- 偏移学习: 可学习的偏移量调整采样位置
Temporal Self-Attention： - 对齐历史BEV特征(通过ego-motion)
- 运动补偿: 使用车辆位姿(x,y,θ)对齐
- 对齐精度: 亚像素级插值
- 建模动态物体的运动
- 速度估计: 通过多帧对比推断
- 轨迹预测: 隐式学习运动模式
- 提升遮挡物体的检测
- 历史信息补充: 当前帧被遮挡的区域
- 效果: 遮挡目标召回率+15%

关键超参数设置：

BEV分辨率: 200×200 (覆盖100m×100m)
近处细化: 可以使用多尺度BEV，近处100×100@0.25m，远处200×200@0.5m
BEV网格大小: 0.5m
权衡: 更小的网格提高精度但增加计算量
实践: 道路区域0.25m，周边区域0.5m
历史帧数: 4帧
帧率: 10Hz，即使用0.4秒历史
内存权衡: 每增加1帧增加~1GB显存
垂直柱体采样: 4个高度
高度分布: [-5m, -2m, 0m, 2m]
覆盖范围: 地下停车场到高架桥

性能优化技巧：

稀疏BEV: 只在道路区域生成BEV queries，减少50%计算
动态分辨率: 根据速度调整BEV范围，高速时看更远
特征共享: 多任务共享BEV特征（检测、分割、预测）

4.3.2 BEVDet系列演进

BEVDet通过显式的深度估计实现2D到BEV的转换，计算效率更高。

BEVDet演进路线：

BEVDet (2021)
├── 显式深度估计
├── LSS视图转换
└── 22.4% mAP

BEVDet4D (2022)
├── 时序融合
├── 速度估计
└── 31.2% mAP

BEVDepth (2022)
├── 深度监督
├── 相机参数编码
└── 35.1% mAP

BEVStereo (2023)
├── 立体匹配
├── 多帧深度
└── 37.8% mAP

深度估计策略对比：

隐式深度(BEVFormer): 精度高但计算量大
显式深度(BEVDet): 速度快但需要深度监督
Rule of thumb: 有LiDAR数据用显式，纯视觉用隐式

4.3.3 时序融合机制

时序信息对于速度估计、遮挡处理和地图构建至关重要。

三种时序融合策略：

特征级对齐融合：

# 伪代码
bev_t = current_bev_features
bev_prev = warp(prev_bev_features, ego_motion)
fused_bev = concat([bev_t, bev_prev])

递归特征更新：

# 类似RNN的更新
hidden_state = GRU(current_features, prev_hidden_state)

注意力机制融合：

# Transformer风格
temporal_features = self_attention([bev_t, bev_t-1, ..., bev_t-n])

性能提升 (基于BEVFormer):

单帧: 25.2% mAP
+4帧历史: 31.6% mAP (+6.4%)
+8帧历史: 32.9% mAP (+7.7%)
收益递减规律: 4帧后提升有限

4.4 Occupancy Network与体素表示

4.4.1 从2D检测到3D占用

占用网格(Occupancy Grid)提供了更细粒度的3D场景理解，是通向端到端驾驶的重要中间表示。

表示方法演进：

2D Bounding Box
    ↓ (增加高度)
3D Bounding Box
    ↓ (细粒度化)
Occupancy Voxels
    ↓ (连续化)
Neural Radiance Fields

Occupancy Network架构：

输入: 多视图图像/点云
3D特征体: 通过投影或卷积构建
占用预测: 每个体素的语义类别
输出分辨率: 典型0.2m×0.2m×0.2m

Tesla Occupancy Network (2022):

输入: 8个相机
输出: 200m×200m×20m空间
分辨率: 0.3m
类别: 16类语义
推理: 10ms on FSD chip

4.4.2 神经辐射场(NeRF)在自动驾驶中的应用

NeRF提供连续的3D表示，可以实现任意视角渲染和更精确的几何重建。

自动驾驶NeRF变体：

Block-NeRF: 城市级场景重建 - 分块处理大场景 - 动态物体分离 - 光照条件建模
Neural Scene Graphs: 动静分离表示 - 静态背景NeRF - 动态物体独立建模 - 场景图结构组织
StreetSurf: 道路表面重建 - 专注路面几何 - 实时渲染优化 - 用于仿真验证

挑战与机遇：

✗ 训练时间长(小时级)
✗ 难以处理动态场景
✓ 高质量仿真数据生成
✓ 稀疏视图重建能力强

4.4.3 实时性优化技术

体素表示的计算瓶颈：

内存占用: 200×200×20×16类 = 12.8M参数
3D卷积计算量大
稀疏性利用不充分

优化策略：

稀疏卷积： - 只处理非空体素 - 加速比: 5-10倍 - 框架: SpConv, MinkowskiEngine
多分辨率表示： - 近处高分辨率，远处低分辨率 - 自适应细分(Octree) - 节省70%计算量
量化与剪枝： - INT8量化: 4倍加速，精度损失<1% - 结构化剪枝: 移除30%通道 - 知识蒸馏: 保持95%性能

部署基准 (on NVIDIA Orin):

全精度: 45ms
INT8量化: 12ms
+稀疏优化: 8ms
目标: <10ms for 10Hz

4.5 自监督学习与预训练策略

4.5.1 CLIP/DINO在自动驾驶中的迁移

大规模预训练模型为自动驾驶感知提供了强大的特征表示能力，减少了标注数据需求。

CLIP (Contrastive Language-Image Pre-training) 应用：

开放词汇检测： - 检测训练时未见过的物体类别 - 例如："construction cone" → "橙色锥形障碍物" - Zero-shot性能: 65% mAP on novel classes
场景理解与描述： - 自然语言描述驾驶场景 - 用于异常检测和边缘案例识别 - 典型prompt: "a safe driving scene with..."
多模态对齐：

图像特征 → CLIP Image Encoder → 512维
文本描述 → CLIP Text Encoder → 512维
         ↓
    余弦相似度匹配

DINO (Self-Distillation with No Labels) 特性：

无监督特征学习： - Teacher-Student自蒸馏框架 - 不需要标注数据 - 涌现的物体分割能力
迁移到3D检测： - DINO特征作为2D backbone - Fine-tuning仅需50%标注数据 - 性能达到全监督的95%

实践建议：

Rule of thumb: 先用预训练模型初始化，节省60%训练时间
数据少于10k: 冻结backbone，只训练检测头
数据10k-100k: 逐层解冻fine-tuning
数据>100k: 全模型训练

4.5.2 掩码自编码器(MAE)的应用

MAE通过重建被遮挡的图像块学习强大的视觉表示，特别适合自动驾驶的遮挡场景。

MAE训练策略：

原始图像
    ↓
随机掩码75%的patches
    ↓
Encoder处理可见patches
    ↓
Decoder重建完整图像
    ↓
MSE损失

自动驾驶适配：

多视图MAE： - 跨视图掩码: 一个视图的patch预测另一视图 - 学习多视图几何关系 - 提升10%的3D检测性能
时序MAE： - 掩码未来帧，从历史预测 - 学习运动模式 - 用于轨迹预测预训练
语义感知MAE： - 根据语义重要性调整掩码概率 - 道路区域掩码概率低 - 天空区域掩码概率高

预训练收益：

ImageNet MAE → nuScenes: +8.2% mAP
nuScenes自监督MAE: +12.1% mAP
训练数据需求减少60%

4.5.3 域适应与小样本学习

自动驾驶面临地域、天气、传感器差异等域偏移问题。

域适应技术：

对抗训练：

源域特征 → 域判别器 → 域标签
目标域特征 ↗
    ↓
梯度反转层(GRL)
    ↓
特征对齐

伪标签自训练： - 在目标域生成伪标签 - 高置信度样本加入训练 - 迭代优化 - Rule of thumb: 置信度阈值>0.9
测试时适应(TTA)： - 推理时在线更新BN统计量 - 熵最小化微调 - 适应新环境只需几秒

小样本学习策略：

原型网络： - 每类计算原型(特征均值) - 最近邻分类 - 5-shot性能达到全监督的80%
元学习(MAML)： - 学习快速适应的初始化 - 10个样本即可适应新任务 - 适合新城市部署

实际案例：

Waymo(美国) → 中国城市: 直接迁移mAP 45%
+域适应: mAP 68%
+100个标注样本: mAP 75%
全监督(10k样本): mAP 82%

4.6 本章小结

深度学习，特别是Transformer架构，已成为自动驾驶感知的核心技术。本章的关键要点：

技术演进脉络：

CNN → Vision Transformer: 全局建模能力提升
2D检测 → 3D检测 → BEV统一表示: 空间理解深化
监督学习 → 自监督预训练: 数据效率提升
单帧 → 时序融合: 动态理解增强

核心公式与概念：

自注意力机制： $$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$$
BEV投影： $$p_{2d} = K \cdot [R|t] \cdot p_{3d}$$
二分图匹配损失： $$L_{match} = \sum_{i} [-\log p_{\sigma(i)}(c_i) + L_{box}(b_i, b_{\sigma(i)})]$$
域适应对抗损失： $$L = L_{task} - \lambda L_{domain}$$

性能基准总结 (nuScenes test):

最佳纯视觉: BEVFormer-Large 42.5% mAP
最佳融合: TransFusion 72.3% mAP
实时系统: StreamPETR 38.2% mAP @ 30 FPS

未来发展方向：

更大规模预训练(10B+ parameters)
神经架构搜索(NAS)自动设计
端到端可微分pipeline
持续学习与在线适应

4.7 练习题

基础题

练习4.1: Vision Transformer的计算复杂度分析给定输入图像224×224，patch大小16×16，计算： a) Token序列长度 b) 标准自注意力的FLOPs c) 如果使用4×4的窗口注意力，FLOPs减少多少？

提示

考虑序列长度N = (224/16)^2，自注意力复杂度O(N^2)

答案

a) Token序列长度 = (224/16)^2 = 14^2 = 196

b) 标准自注意力FLOPs ≈ 2N^2d = 2×196^2×768 ≈ 59M

c) 窗口注意力将图像分成(14/4)^2个窗口，每个窗口16个tokens FLOPs ≈ (14/4)^2 × 2×16^2×768 ≈ 3.8M 减少约94%

练习4.2: BEV投影几何相机内参K，高度h=1.5m，俯仰角θ=10°。一个地面点在BEV中位于(x_bev=10m, y_bev=5m)，计算其图像坐标。

提示

先转换到相机坐标系，考虑俯仰角影响，再投影到图像

答案

BEV到相机坐标系: - x_cam = y_bev = 5m - y_cam = h = 1.5m
- z_cam = x_bev/cos(θ) = 10/cos(10°) ≈ 10.15m
投影到图像(假设fx=fy=1000, cx=cy=500): - u = fx × x_cam/z_cam + cx = 1000×5/10.15 + 500 ≈ 993 - v = fy × y_cam/z_cam + cy = 1000×1.5/10.15 + 500 ≈ 648

练习4.3: DETR匹配策略 5个预测框，3个真值框，匹配成本矩阵如下，使用匈牙利算法找出最优匹配：

     GT1  GT2  GT3
P1   0.3  0.8  0.5
P2   0.2  0.4  0.9
P3   0.7  0.3  0.2
P4   0.5  0.6  0.4
P5   0.9  0.2  0.6

提示

找出使总成本最小的一对一匹配，未匹配的预测视为背景

答案

最优匹配:

P1 → GT1 (0.3)
P3 → GT3 (0.2)
P5 → GT2 (0.2)
P2, P4 → 背景

总成本: 0.3 + 0.2 + 0.2 = 0.7

挑战题

练习4.4: 多帧BEV特征对齐设计一个算法，将t-1时刻的BEV特征对齐到t时刻。已知车辆运动(Δx, Δy, Δθ)，BEV分辨率0.5m/pixel。

提示

考虑平移和旋转变换，使用双线性插值处理非整数偏移

答案

算法步骤:

计算像素级偏移: - dx_pixel = Δx / 0.5 - dy_pixel = Δy / 0.5
构建变换矩阵:

M = [cos(Δθ)  -sin(Δθ)  dx_pixel]
    [sin(Δθ)   cos(Δθ)  dy_pixel]

对每个目标位置(i,j): - 逆变换找源位置: [i',j'] = M^(-1) × [i,j,1] - 双线性插值获取特征值
边界处理: - padding='zero'用于视野外区域 - 或使用历史多帧信息填充

时间复杂度: O(HW)，其中H,W为BEV尺寸

练习4.5: 自监督预训练策略设计你有100万帧未标注的驾驶数据，设计一个多任务自监督预训练方案，要求结合至少3种自监督方法。

提示

考虑图像重建、时序预测、多视图一致性等任务

答案

多任务自监督方案:

MAE重建任务 (权重0.3): - 随机掩码70% patches - 重建RGB值 - 学习局部特征
时序预测任务 (权重0.3): - 输入: t-3, t-2, t-1帧 - 预测: t帧的特征 - 学习运动模式
多视图对比学习 (权重0.2): - 正样本: 同时刻不同视角 - 负样本: 不同时刻/场景 - 学习视角不变性
深度估计任务 (权重0.2): - 利用运动视差 - 光度一致性损失 - 学习3D结构

训练策略:

前50k步: 只训练MAE
50k-150k: 加入时序预测
150k+: 全部任务联合训练
动态权重调整避免任务冲突

练习4.6: BEV感知的内存优化 BEVFormer需要存储多帧BEV特征(200×200×256×4帧)，设计一个压缩方案将内存降低75%，同时性能损失<2%。

提示

考虑量化、稀疏表示、关键帧策略等

答案

压缩方案设计:

混合精度量化 (节省50%): - 当前帧: FP16 - 历史帧: INT8 - 关键特征: FP32
稀疏编码 (节省额外40%): - 静态区域只存储索引 - 动态区域完整存储 - 使用octree结构
关键帧策略 (节省额外20%): - 每3帧设一个关键帧(完整存储) - 非关键帧存储残差 - 运动补偿插值
特征压缩: - PCA降维: 256→64维 - 可学习的编解码器 - 通道剪枝

实现细节:

# 伪代码
if frame_id % 3 == 0:  # 关键帧
    store_full = quantize_fp16(features)
else:  # 非关键帧
    residual = features - motion_compensate(prev_features)
    store_sparse = sparse_encode(quantize_int8(residual))

预期结果:

内存: 40.96MB → 10.24MB (75%减少)
mAP损失: <1.5%
速度提升: 20%(内存带宽降低)

练习4.7: 端到端优化的梯度流分析分析从BEV特征到最终控制指令的梯度流，识别可能的梯度消失/爆炸位置，提出解决方案。

提示

考虑网络深度、激活函数、归一化层的影响

答案

梯度流分析:

潜在问题点:

深度网络 (>100层): - 问题: 梯度消失 - 解决: 残差连接, Dense connections
ReLU激活: - 问题: Dead ReLU导致梯度为0 - 解决: LeakyReLU, GELU
时序展开: - 问题: 长序列的梯度爆炸/消失 - 解决: 梯度裁剪, LSTM/GRU门控
多任务损失: - 问题: 梯度冲突 - 解决: GradNorm, 动态权重

解决方案:

# 1. 梯度监控
def gradient_hook(module, grad_input, grad_output):
    grad_norm = grad_output[0].norm()
    if grad_norm < 1e-6:
        log_warning(f"Gradient vanishing in {module}")
    elif grad_norm > 100:
        log_warning(f"Gradient exploding in {module}")

# 2. 自适应梯度裁剪
torch.nn.utils.clip_grad_norm_(parameters, max_norm=1.0)

# 3. 梯度累积策略
if step % accumulation_steps == 0:
    optimizer.step()
    optimizer.zero_grad()

# 4. 学习率调度
scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=10)

监控指标:

各层梯度范数: 理想范围[0.01, 10]
梯度信噪比: >0.1
参数更新比率: 0.001-0.1

4.8 常见陷阱与错误

数据相关陷阱

数据泄露 - ❌ 错误: 验证集包含训练集的连续帧 - ✅ 正确: 按场景/时间段划分，确保独立性 - 检测方法: 可视化验证集预测，异常高的性能往往意味着泄露
标注噪声处理 - ❌ 错误: 直接使用所有标注训练 - ✅ 正确: 设置噪声鲁棒的损失函数 - Rule of thumb: 假设5-10%标注有误差

模型设计陷阱

感受野不足 - ❌ 错误: 小目标检测用大kernel/stride - ✅ 正确: 多尺度特征金字塔FPN - 诊断: 统计漏检目标的尺寸分布
过拟合预训练数据集 - ❌ 错误: 直接使用ImageNet预训练 - ✅ 正确: 驾驶场景数据继续预训练 - 性能差异: 通用预训练vs领域预训练可差10%

训练技巧陷阱

学习率设置 - ❌ 错误: 全局统一学习率 - ✅ 正确: Backbone小学习率(1e-4)，Head大学习率(1e-3) - 经验: Pretrained层学习率×0.1
数据增强过度 - ❌ 错误: 随机裁剪破坏物体 - ✅ 正确: 保持物体完整性的增强 - 安全增强: 亮度、对比度、轻微旋转

部署相关陷阱

批处理依赖 - ❌ 错误: BatchNorm在推理时batch_size=1 - ✅ 正确: 改用GroupNorm或LayerNorm - 性能退化: BN可导致10%性能下降
精度量化损失 - ❌ 错误: 直接INT8量化所有层 - ✅ 正确: 敏感层保持FP16，QAT训练 - 关键层: 第一层和最后一层通常最敏感

调试技巧

快速诊断检查表:

□ 可视化第一层卷积核(应该有边缘检测器)
□ 检查损失曲线(应该平滑下降)
□ 统计预测框尺寸分布(应该合理)
□ 检查GPU利用率(>80%为正常)
□ 验证数据加载速度(不应成为瓶颈)

常见错误信息解析:

"CUDA out of memory": 减小batch size或图像分辨率
"Loss is NaN": 检查学习率、梯度裁剪、数据是否正常
"mAP=0": 检查类别映射、NMS阈值、坐标变换

通过本章的学习，你应该掌握了深度学习在自动驾驶感知中的核心技术，理解了从CNN到Transformer的演进，以及从2D到3D/BEV的表示学习。下一章我们将探讨如何利用这些感知结果进行预测和路径规划。