第1章:自动驾驶导论
本章将全面介绍自动驾驶技术的发展历程、核心概念、技术架构以及产业现状。我们将深入探讨传统模块化架构与新兴端到端架构的设计理念,分析当前技术挑战,并展望基础模型(Foundation Models)在自动驾驶领域的应用前景。通过本章学习,您将建立对自动驾驶系统的整体认识,为后续章节的深入学习奠定基础。
1.1 自动驾驶的历史演进
1.1.1 早期探索(1920s-1980s)
自动驾驶的梦想可以追溯到1920年代。1925年,发明家Francis Houdina通过无线电控制演示了第一辆"无人驾驶"汽车,虽然实际上是远程控制而非真正的自主驾驶。
1950-1960年代,通用汽车的Firebird概念车系列展示了对未来自动驾驶的憧憬,提出了基于磁性道路引导的自动驾驶概念。这一时期的技术局限于:
- 计算能力严重不足
- 传感器技术原始
- 缺乏人工智能理论基础
1.1.2 学术研究阶段(1980s-2000s)
关键里程碑:
-
Carnegie Mellon NavLab项目(1984-1995) - NavLab 1:首个基于计算机视觉的自动驾驶车辆 - ALVINN(1989):首个使用神经网络进行道路跟随的系统 - 1995年"No Hands Across America":98.2%路程自动驾驶横跨美国
-
欧洲PROMETHEUS项目(1987-1995) - Ernst Dickmanns的VaMP和VITA-2车辆 - 1994年在巴黎高速公路上实现130km/h的自动驾驶 - 首次实现基于视觉的车道变换和超车
-
DARPA挑战赛时代(2004-2007) - 2004 Grand Challenge:沙漠环境,无完成者 - 2005 Grand Challenge:Stanford的Stanley首个完成 - 2007 Urban Challenge:城市环境,引入动态障碍物
传感器演进时间线
1980s: 超声波 + 简单视觉
|
1990s: + 激光测距仪
|
2000s: + 多线激光雷达 + GPS/INS
|
2010s: + 高分辨率相机阵列 + 固态激光雷达
|
2020s: + 4D毫米波雷达 + 事件相机
1.1.3 产业化阶段(2009-至今)
2009-2015:技术积累期
- Google自动驾驶项目启动(2009,后成为Waymo)
- Tesla Autopilot 1.0发布(2014)
- 传统车企纷纷建立自动驾驶研发团队
2016-2020:快速发展期
- 大量初创公司涌现(Cruise, Argo AI, Aurora, Pony.ai等)
- 巨额投资涌入(累计超过1000亿美元)
- Robotaxi试运营在多个城市展开
2021-2025:理性调整与技术突破期
- 部分公司退出或合并(Argo AI关闭, Uber ATG出售)
- 技术路线分化:纯视觉 vs 多传感器融合
- 端到端学习崛起:Tesla FSD v12, Wayve LINGO系列
- Foundation Models应用:VLA模型、世界模型
1.2 SAE自动驾驶分级标准
国际汽车工程师学会(SAE)定义的J3016标准已成为行业通用的自动驾驶分级体系:
L0 - 无自动化
- 人类驾驶员完全控制车辆
- 可能存在警告系统(如碰撞预警)
L1 - 驾驶辅助
- 单一功能自动化:自适应巡航(ACC)或车道保持(LKA)
- 人类驾驶员负责监控环境和其他驾驶任务
L2 - 部分自动化
- 同时控制纵向和横向:ACC + LKA组合
- 人类必须持续监控,随时接管
- 代表系统:Tesla Autopilot, GM Super Cruise
L3 - 条件自动化
- 特定条件下(ODD)系统负责所有驾驶任务
- 人类驾驶员必须能够响应接管请求
- 代表系统:Mercedes Drive Pilot(限定条件)
L4 - 高度自动化
- 特定条件下完全自主,无需人类接管
- 系统能够处理所有故障情况
- 代表应用:Waymo One, Cruise Origin
L5 - 完全自动化
- 任何条件下的完全自主驾驶
- 无需方向盘和踏板
- 目前尚无商业化产品
关键概念:ODD (Operational Design Domain)
ODD定义了自动驾驶系统的运行边界:
- 地理范围(高精地图覆盖区域)
- 道路类型(高速公路、城市道路)
- 天气条件(晴天、雨雪)
- 时间限制(白天、夜晚)
- 速度范围
L2与L3的关键区别:责任主体
L2: 人类监控 → 系统执行 → 人类负责
↑ ↓
└─────── 持续注意力 ────────┘
L3: 系统监控 → 系统执行 → 系统负责
↓ ↓
[接管请求] → 人类接管 → 人类负责
1.3 自动驾驶技术栈概览
1.3.1 硬件层
传感器系统:
-
摄像头 - 前视:远距离目标检测(120°FOV, 200m范围) - 环视:360°覆盖,近距离感知 - 优势:丰富的语义信息,低成本 - 劣势:受光照天气影响,缺乏深度信息
-
激光雷达(LiDAR) - 机械式:Velodyne HDL-64E(64线) - 固态/混合固态:Luminar Iris, Innoviz One - 优势:精确3D信息,不受光照影响 - 劣势:成本高,恶劣天气性能下降
-
毫米波雷达 - 77GHz:远距离检测(250m) - 4D成像雷达:增加俯仰角分辨率 - 优势:全天候工作,直接测速 - 劣势:分辨率低,难以分类
-
其他传感器 - GPS/GNSS + INS:全局定位 - 超声波:近距离泊车 - 事件相机:高动态范围场景
计算平台:
- NVIDIA Drive Orin:275 TOPS
- Qualcomm Snapdragon Ride:700+ TOPS
- Tesla FSD Computer:144 TOPS(双芯片)
- 地平线征程5:128 TOPS
1.3.2 软件架构
传统模块化架构采用分层设计:
┌─────────────────────────────────┐
│ 应用层 │
│ (Mission Planning) │
└────────────┬────────────────────┘
│
┌────────────▼────────────────────┐
│ 决策层 │
│ (Behavior Planning) │
└────────────┬────────────────────┘
│
┌────────────▼────────────────────┐
│ 规划层 │
│ (Motion Planning) │
└────────────┬────────────────────┘
│
┌────────────▼────────────────────┐
│ 控制层 │
│ (Vehicle Control) │
└────────────┬────────────────────┘
│
┌────────────▼────────────────────┐
│ 感知层 │
│ (Perception & Localization) │
└────────────┬────────────────────┘
│
┌────────────▼────────────────────┐
│ 传感器层 │
│ (Sensor Interfaces) │
└─────────────────────────────────┘
核心模块功能:
-
感知(Perception) - 3D目标检测:车辆、行人、骑行者 - 语义分割:可行驶区域、车道线 - 目标跟踪:多目标轨迹关联 - 传感器融合:早期/后期融合策略
-
定位(Localization) - GNSS/INS融合:全局定位 - 地图匹配:车道级定位 - SLAM:无地图区域定位
-
预测(Prediction) - 轨迹预测:5-8秒时域 - 意图识别:变道、转弯意图 - 交互建模:多智能体博弈
-
规划(Planning) - 路径规划:全局路径 - 行为规划:变道、超车决策 - 轨迹规划:平滑可执行轨迹
-
控制(Control) - 横向控制:转向 - 纵向控制:加速/制动 - 稳定性控制:防滑、防侧翻
1.4 模块化架构 vs 端到端架构
1.4.1 传统模块化架构
设计理念:
- 分而治之:将复杂问题分解为子问题
- 明确接口:模块间通过定义好的接口通信
- 可解释性:每个模块的输出可理解可调试
优势:
-
工程可控性 - 模块独立开发和测试 - 故障定位清晰 - 增量式改进
-
安全性保证 - 每个模块可独立验证 - 失效模式分析(FMEA) - 符合ISO 26262功能安全标准
-
知识注入 - 交通规则约束 - 物理约束(动力学模型) - 专家经验编码
劣势:
-
信息损失 - 模块间接口造成信息瓶颈 - 早期决策错误难以恢复 - 累积误差问题
-
优化困难 - 局部最优≠全局最优 - 模块间目标可能冲突 - 手工设计接口限制性能上限
-
工程复杂度 - 大量工程师协调 - 接口版本管理 - 集成测试困难
1.4.2 端到端学习架构
设计理念:
- 直接学习感知到控制的映射
- 数据驱动的特征学习
- 隐式中间表示
典型架构演进:
传统端到端(2016-2020):
Sensor → CNN → FC → Control
↓
潜在特征
(不可解释)
现代端到端(2021-2025):
Sensor → Transformer → Implicit BEV → Policy → Control
↓ ↓ ↓
注意力图 3D occupancy 决策token
(部分可解释) (可视化) (可查询)
代表性系统:
-
Tesla FSD v12(2023-2024) - 纯视觉输入:8个摄像头 - 端到端神经网络:110亿参数 - 训练数据:1000万+视频片段 - 关键创新:大规模真实驾驶数据
-
Wayve LINGO-1/2(2023-2024) - Vision-Language-Action模型 - 自然语言驾驶解释 - 7B+参数规模 - 关键创新:语言模态增强决策可解释性
-
UniAD(2023) - 统一的多任务学习 - 显式任务:检测、跟踪、地图、轨迹、占用、规划 - Query-based架构 - 关键创新:任务间特征共享
优势:
-
性能潜力 - 端到端优化 - 自动特征学习 - 无信息损失
-
开发效率 - 减少手工设计 - 数据驱动迭代 - 统一的训练流程
-
泛化能力 - 学习隐式规律 - 处理长尾场景 - 适应新环境
挑战:
-
可解释性 - 黑盒决策过程 - 难以调试和改进 - 监管合规困难
-
数据需求 - 海量标注数据 - 罕见场景覆盖 - 分布偏移问题
-
安全保证 - 形式化验证困难 - 失效模式不明确 - 难以注入硬约束
1.4.3 混合架构趋势
最新的研究和工业实践趋向于结合两种架构的优势:
设计原则:
-
可微分模块化 - 保持模块结构 - 端到端反向传播 - 如:可微分渲染、神经ODE
-
层次化决策 - 高层:端到端学习(战略决策) - 底层:传统控制(战术执行) - 中间层:混合设计
-
注意力引导的信息流 - Transformer统一不同模块 - Cross-attention实现模块交互 - 动态信息路由
案例分析:DriveVLM架构
视觉输入 → ViT Encoder →
↘
语言指令 → LLM Encoder → Multi-Modal Transformer → 决策推理
↗ ↓
地图信息 → Graph Encoder → Chain-of-Thought
↓
轨迹生成模块
↓
传统MPC控制器
1.5 产业现状与主要玩家
1.5.1 技术路线分化
纯视觉派:
- Tesla:8摄像头,FSD v12端到端
- Mobileye:EyeQ芯片+REM众包地图
- 理念:视觉信息足够+成本优势
多传感器融合派:
- Waymo:29摄像头+5激光雷达+6雷达
- Cruise:21摄像头+5激光雷达+18雷达
- 理念:冗余保证安全+全天候
新势力:
- 中国厂商:渐进式路线,城市NOA
- 蔚来/小鹏/理想:L2++逐步升级
- 华为/百度:全栈解决方案
1.5.2 商业模式
-
Robotaxi(L4) - Waymo:凤凰城、旧金山商业运营 - Cruise:旧金山(暂停后恢复) - 百度Apollo:北京、广州、深圳 - 挑战:运营成本、监管、扩展速度
-
私家车ADAS(L2/L2+) - Tesla FSD:北美全面推送 - 中国NOA:高速→城市快速扩展 - 挑战:责任界定、用户教育
-
商用车自动驾驶 - TuSimple/Plus:高速货运 - 图森未来:中美路测 - 挑战:长途可靠性、司机就业
-
末端配送 - Nuro:无人配送车 - 美团/京东:园区配送 - 挑战:路权、成本回收
1.5.3 区域发展特点
美国:
- 技术领先,Waymo/Tesla引领
- 宽松的路测政策(部分州)
- VC投资活跃但趋于理性
中国:
- 快速追赶,应用场景丰富
- 政府支持,示范区建设
- 车路协同(V2X)并行发展
欧洲:
- 严格监管,谨慎推进
- 传统车企转型(BMW、Mercedes)
- 关注隐私和伦理问题
1.6 技术挑战与未解问题
1.6.1 感知挑战
-
遮挡处理 - 部分遮挡目标检测 - 盲区预测 - 主动感知策略
-
恶劣天气 - 雨雪雾影响 - 传感器退化 - 鲁棒性设计
-
语义理解 - 施工区识别 - 交警手势 - 异常物体
1.6.2 预测与交互
-
多模态预测 - 不确定性建模 - 社会交互理解 - 意图推理
-
博弈论建模 - 激进/保守驾驶风格 - 协商式交互 - 死锁避免
1.6.3 决策规划
-
伦理困境 - 道德决策(电车难题) - 风险分配 - 社会接受度
-
实时性保证 - 计算资源限制 - 延迟敏感 - 优雅降级
1.6.4 验证与测试
-
场景覆盖 - 长尾场景 - 组合爆炸 - 仿真-现实差距
-
安全论证 - 统计显著性(多少英里?) - 形式化方法 - 监管标准
1.7 最新技术趋势:Foundation Models时代
1.7.1 大模型在自动驾驶中的应用
从专用模型到通用基础模型的转变:
2023-2024年见证了自动驾驶领域的范式转变,大规模预训练模型开始主导技术发展:
-
规模效应显现 - 模型参数:从百万级→十亿级→百亿级 - 训练数据:从GB级→TB级→PB级 - 涌现能力:零样本泛化、上下文学习
-
多模态统一 - Vision-Language-Action (VLA)模型 - 统一的表示学习 - 跨模态知识迁移
1.7.2 World Models与自动驾驶
世界模型的核心概念:
- 学习环境的内部表示
- 预测未来状态
- 支持心智规划(mental planning)
在自动驾驶中的应用:
-
GAIA-1(Wayve, 2023) - 生成式世界模型 - 9B参数,视频生成 - 可控场景生成用于测试
-
DriveDreamer(2023) - 基于Diffusion的世界模型 - 结构化条件生成 - 闭环仿真评估
-
特点与优势:
传统仿真器:
物理引擎 → 渲染 → 传感器模型 → 感知系统
↑ ↓
手工规则 ←─────── 场景 ←────── 决策系统
世界模型:
历史观测 → Transformer/Diffusion → 未来预测
↓ ↓
潜在世界状态 直接决策
↓
反事实推理
1.7.3 Vision-Language-Action模型革命
关键突破:
-
Wayve LINGO-2(2024) - 闭环驾驶视觉语言模型 - 自然语言解释决策 - 实车部署验证
-
DriveVLM(2024) - 混合视觉语言特征 - Chain-of-Thought推理 - 场景理解与规划统一
-
DriveLM(2024) - 基于Graph VQA的驾驶 - 结构化推理链 - 可解释决策过程
技术特点:
- 利用预训练语言知识
- 自然语言作为中间表示
- 提升可解释性和泛化能力
1.7.4 具身智能(Embodied AI)融合
从机器人学习到自动驾驶:
-
RT-2/RT-X迁移 - 机器人Transformer架构 - 跨域任务迁移 - 视觉-语言-动作统一
-
主动感知 - 信息论驱动的视角选择 - 探索与利用平衡 - 不确定性引导的数据收集
-
持续学习 - 在线适应 - 灾难性遗忘避免 - 增量式能力扩展
1.7.5 计算架构创新
Transformer加速技术:
-
Flash Attention系列 - IO优化的注意力计算 - 2-3倍推理加速 - 支持更长序列
-
稀疏化与量化 - 结构化剪枝 - INT8/INT4量化 - 知识蒸馏
-
专用硬件 - Transformer加速器 - 近数据计算 - 神经形态芯片探索
1.8 本章小结
本章系统介绍了自动驾驶技术的全貌,从历史演进到最新突破。关键要点包括:
核心概念
- SAE分级标准:L0-L5的自动化程度递进,L3是责任主体转换的关键节点
- ODD(运行设计域):定义系统能力边界,是商业化的关键考量
- 技术栈层次:感知→定位→预测→规划→控制的经典pipeline
架构演进
- 模块化架构:工程可控但存在信息瓶颈
- 端到端学习:性能潜力大但可解释性差
- 混合架构:结合两者优势的新趋势
关键公式与度量
-
安全性度量 - MTBF (Mean Time Between Failures): 平均故障间隔时间 - Disengagement Rate: 每1000英里接管次数 - 统计置信度:需要10^8英里验证10^-9/小时故障率
-
感知性能 - mAP (mean Average Precision): 检测精度 - NDS (NuScenes Detection Score): 综合检测指标 - 时延要求:感知+决策 < 100ms
-
规划质量 - Jerk最小化:舒适性指标 - 安全距离:TTC (Time to Collision) > 3s - 效率:平均速度/限速比 > 0.8
产业洞察
- 技术路线分化明显:纯视觉vs多传感器
- 商业模式多样:Robotaxi、ADAS、商用车、末端配送
- 地域特色:美国技术领先、中国应用活跃、欧洲监管严格
未来趋势
- Foundation Models成为主流
- VLA模型提升可解释性
- 世界模型支持反事实推理
- 具身智能思想融入
1.9 常见陷阱与错误(Gotchas)
1.9.1 概念理解误区
误区1:L3比L2安全
- 错误:自动化程度越高越安全
- 正确:L3的接管悖论可能更危险(人类注意力下降但需要快速接管)
误区2:端到端一定优于模块化
- 错误:端到端是未来,模块化过时
- 正确:各有优劣,混合架构可能是最佳实践
误区3:激光雷达是必需的
- 错误:没有激光雷达不可能实现自动驾驶
- 正确:纯视觉方案在特定ODD下可行,但多传感器提供冗余
1.9.2 技术实施陷阱
陷阱1:过拟合测试场景
- 问题:针对benchmark优化,实际道路表现差
- 解决:注重分布外(OOD)测试,使用真实驾驶数据
陷阱2:忽视时序信息
- 问题:单帧处理,缺乏时序一致性
- 解决:显式建模时序关系,使用递归或Transformer
陷阱3:计算资源低估
- 问题:算法在工作站运行良好,车载部署失败
- 解决:早期考虑部署约束,使用轻量化技术
1.9.3 系统集成难点
难点1:传感器时间同步
- 挑战:多传感器时钟漂移
- 方案:硬件时间戳+软件补偿
难点2:坐标系统一
- 挑战:传感器坐标系不一致
- 方案:严格标定+在线校正
难点3:故障处理
- 挑战:单点故障导致系统崩溃
- 方案:冗余设计+优雅降级
1.9.4 调试技巧
-
可视化优先 - BEV投影检查 - 轨迹回放分析 - 注意力图可视化
-
增量式验证 - 单模块测试 - 仿真验证 - 封闭场地测试 - 开放道路验证
-
数据质量检查 - 标注一致性 - 传感器标定精度 - 时序对齐准确性
1.10 练习题
基础题
题目1:SAE级别判断
某自动驾驶系统可以在高速公路上自动保持车道并调节速度,但要求驾驶员双手必须放在方向盘上,系统每30秒会检测驾驶员注意力。请问这属于SAE哪个级别?说明判断依据。
提示(Hint): 考虑谁负责监控驾驶环境,以及系统能同时控制哪些功能。
参考答案
这是典型的L2级别自动驾驶系统。
判断依据:
- 系统同时控制横向(车道保持)和纵向(速度调节)
- 要求驾驶员持续监控(双手在方向盘,注意力检测)
- 驾驶员是责任主体,必须随时准备接管
- 这符合L2"部分自动化"的定义:系统执行驾驶任务,但人类必须监督
关键区别:
- 不是L1:因为同时控制横纵向(L1只控制其一)
- 不是L3:因为要求持续监控(L3允许脱手脱眼,只需响应接管请求)
题目2:传感器特性匹配
将以下传感器特性与最适合的应用场景匹配:
传感器: A. 毫米波雷达 B. 激光雷达 C. 摄像头 D. 超声波
场景:
- 雨雾天气下的前车距离检测
- 交通标志识别
- 精确的3D点云地图构建
- 低速泊车时的近距离障碍物检测
提示(Hint): 考虑每种传感器的物理特性和工作原理。
参考答案
正确匹配:
- A-1:毫米波雷达 → 雨雾天气下的前车距离检测
-
原因:毫米波穿透能力强,不受天气影响,可直接测速
-
C-2:摄像头 → 交通标志识别
-
原因:摄像头提供丰富的颜色和纹理信息,适合语义识别
-
B-3:激光雷达 → 精确的3D点云地图构建
-
原因:激光雷达提供高精度3D测距,点云密度高
-
D-4:超声波 → 低速泊车时的近距离障碍物检测
- 原因:超声波成本低,近距离(<5m)探测效果好,适合泊车场景
题目3:模块化架构信息流
在传统模块化架构中,"感知"模块检测到前方100米有一辆静止车辆,但由于遮挡只看到了部分车身。请描述这个信息如何在系统中流动,以及可能出现的问题。
提示(Hint): 考虑模块间的接口设计和信息损失。
参考答案
信息流动过程:
- 感知模块 → 输出:3D边界框 + 类别(车辆) + 置信度(如0.7)
- 跟踪模块 → 关联历史轨迹,估计速度(0 m/s),更新状态
- 预测模块 → 基于静止状态预测未来5秒轨迹(保持静止)
- 规划模块 → 根据预测轨迹规划变道或减速
- 控制模块 → 执行规划轨迹
可能的问题:
- 信息损失:部分遮挡信息丢失,下游模块不知道检测不完整
- 级联错误:如果感知错误判断了车辆尺寸,会影响所有下游决策
- 不确定性传播:低置信度(0.7)可能被忽略,导致过度自信的规划
- 缺乏全局优化:规划模块无法要求感知模块主动获取更多信息
改进建议:
- 传递不确定性信息
- 支持双向通信(规划反馈给感知)
- 保留原始传感器数据供下游参考
题目4:计算资源估算
一个自动驾驶系统使用8个200万像素的摄像头,帧率30fps,每个像素3字节(RGB)。仅考虑原始图像数据,计算每秒需要处理的数据量。如果还要在100ms内完成推理,对计算平台有什么要求?
提示(Hint): 数据量 = 摄像头数 × 分辨率 × 帧率 × 每像素字节数
参考答案
计算过程:
-
单个摄像头每秒数据量: - 2,000,000像素 × 30fps × 3字节 = 180 MB/s
-
8个摄像头总数据量: - 180 MB/s × 8 = 1,440 MB/s ≈ 1.44 GB/s
-
100ms内需要处理的数据: - 1.44 GB/s × 0.1s = 144 MB
计算平台要求:
- 带宽要求:至少1.44 GB/s的数据吞吐能力
- 内存要求:足够缓存至少144MB原始数据 + 中间特征
- 算力要求: - 假设使用ResNet-50,每帧约4 GFLOPs - 8摄像头 × 30fps × 4 GFLOPs = 960 GFLOPs ≈ 1 TFLOPs
- 延迟要求:pipeline总延迟 < 100ms,包括预处理、推理、后处理
实际考虑:
- 需要额外算力用于其他模块(跟踪、预测、规划)
- 需要考虑功耗限制(通常<100W)
- 需要硬件加速(GPU/NPU)支持
挑战题
题目5:端到端架构设计权衡
你被要求为一家初创公司设计自动驾驶系统架构。公司资源有限但希望快速迭代,目标是2年内在限定区域实现L4级别自动驾驶。请分析选择端到端架构vs模块化架构的利弊,并给出建议。
提示(Hint): 考虑开发速度、安全认证、数据需求、团队规模等因素。
参考答案
场景分析:
- 初创公司:资源有限,团队小
- 快速迭代:需要敏捷开发
- 2年期限:时间紧迫
- L4目标:高安全要求
- 限定区域:ODD相对简单
端到端架构分析:
优势:
- 开发效率高:小团队可行,不需要多团队协调
- 迭代速度快:收集数据→训练→部署的简单循环
- 性能潜力:可能达到更好的整体性能
- 差异化:技术特色明显,吸引投资
劣势:
- 数据需求大:限定区域可能数据不足
- 安全认证难:L4需要严格安全论证,黑盒系统困难
- 调试困难:出现问题难以定位和修复
- 投资人信心:难以解释和展示进展
模块化架构分析:
优势:
- 风险可控:模块独立验证,适合L4安全要求
- 渐进开发:可以优先开发关键模块
- 人才获取:更容易招聘专门人才
- 复用现有方案:可以集成开源或商业模块
劣势:
- 协调成本高:小团队难以cover所有模块
- 性能瓶颈:模块间接口可能限制性能
- 迭代速度慢:修改一个模块可能影响多个接口
建议方案:混合渐进式架构
第一阶段(0-12个月):
- 采用轻量级模块化,快速搭建原型
- 使用开源感知模块 + 简化规划
- 重点收集数据,建立数据闭环
第二阶段(12-18个月):
- 引入端到端学习改进关键路径
- 保留模块化的安全边界
- 如:端到端感知+预测,传统规划+控制
第三阶段(18-24个月):
- 根据数据积累情况决定最终架构
- 如果数据充足:更多端到端组件
- 如果需要认证:保持关键安全模块
关键成功因素:
- 建立强大的数据基础设施
- 保持架构灵活性
- 注重仿真测试能力
- 与监管机构早期沟通
题目6:ODD边界案例分析
某L4自动驾驶系统的ODD定义为:"晴天,白天,城市道路,限速60km/h以下,高精地图覆盖区域"。现在系统遇到以下情况,请分析系统应该如何处理:
场景:车辆正常行驶中突然开始下小雨,雨量逐渐增大,能见度从200m降到50m。
提示(Hint): 考虑ODD退出策略、安全停车、用户体验。
参考答案
情况分析:
- 初始状态:在ODD内(晴天)
- 变化过程:逐渐退出ODD(下雨)
- 风险评估:能见度下降影响感知性能
系统应对策略(分阶段):
阶段1:小雨开始(能见度150-200m)
- 检测到ODD边界条件
- 记录事件,评估感知性能
- 提前通知:「检测到降雨,系统性能可能受影响」
- 降低车速,增大安全距离
- 开始寻找安全停车点
阶段2:雨量增大(能见度100-150m)
- 触发ODD退出预警
- 通知:「由于天气条件,需要在2分钟内安全停车」
- 激活最低风险策略(MRM)
- 主动寻找:停车场、路边安全区域
- 降速至30km/h以下
阶段3:能见度降至50m
- 立即执行安全停车
- 如果没有理想停车点: - 开启双闪 - 靠边停车 - 保持最低速度寻找安全位置
- 停车后: - 保持系统监控 - 等待天气好转或人工接管 - 联系远程监控中心
关键设计考虑:
-
渐进式降级 - 不要突然停车造成追尾 - 给乘客/监控中心反应时间
-
感知能力评估 - 实时评估每个传感器性能 - 多传感器投票决定是否继续
-
通信策略 - 提前告知乘客 - 上报云端平台 - 必要时请求远程协助
-
法律合规 - 记录完整的决策日志 - 确保符合当地交通法规 - 保存传感器数据用于事后分析
-
用户体验优化 - 提供预计停车地点 - 显示天气预报 - 提供替代出行方案
经验教训:
- ODD不是二值的,需要渐进过渡
- 天气预报集成很重要
- 需要明确的MRM策略
- 边界case的处理决定用户信任
题目7:Foundation Model应用创新
假设你可以使用一个100B参数的视觉-语言-动作(VLA)模型,该模型在大规模驾驶数据和互联网数据上预训练。请设计一个创新的应用场景,说明如何利用其能力改进现有自动驾驶系统。
提示(Hint): 考虑VLA模型的独特能力:常识推理、零样本泛化、自然语言交互。
参考答案
创新应用:情境感知驾驶助手(Context-Aware Driving Assistant)
核心理念: 利用VLA模型的常识推理和语言能力,处理传统系统难以编程的复杂社会场景。
系统架构:
场景输入 → VLA模型 → 情境理解 → 驾驶建议 → 执行/解释
↑ ↓ ↓ ↓
历史上下文 语言描述 风险评估 自然语言解释
创新功能:
-
复杂场景理解 - 输入:「前方有婚礼车队,装饰华丽,行驶缓慢」 - 推理:婚礼车队通常不会分开,应整体超越或跟随 - 输出:保持距离,等待合适时机整体超车
-
文化敏感驾驶 - 场景:检测到宗教游行/文化活动 - 推理:基于预训练知识理解活动性质 - 行为:礼貌等待,避免鸣笛
-
异常事件处理 - 场景:道路上有倒下的圣诞树 - 传统系统:未知障碍物,紧急刹车 - VLA系统:识别为圣诞树,预测可能是从车上掉落,小心绕行
-
自然语言交互 - 乘客:「为什么不超车?」 - 系统:「前车是新手司机教练车,保持耐心跟随更安全」 - 展示理解深度和决策透明度
-
预测意图升级 - 观察:SUV车顶有自行车架,接近山路入口 - 推理:可能要去山地骑行,会在特定地点停车 - 行动:预留超车空间
技术实现:
- 多模态输入融合
输入 = {
'视觉': camera_images,
'语言': road_signs + voice_commands,
'地图': semantic_map_info,
'历史': past_5min_trajectory
}
- Chain-of-Thought推理
观察 → 场景识别 → 常识推理 → 风险评估 → 决策生成
"school bus" → "学生" → "可能突然停车" → "高风险" → "保持距离"
- 可解释决策 - 生成自然语言解释 - 可视化注意力区域 - 提供置信度评分
优势分析:
- 处理长尾场景:无需显式编程每种情况
- 文化适应性:理解不同地区的驾驶习惯
- 人机信任:通过解释建立信任
- 持续学习:通过语言反馈改进
潜在挑战:
- 计算资源:100B模型推理成本高
- 延迟问题:需要优化以满足实时要求
- 幻觉问题:可能产生错误的常识推理
- 安全验证:难以形式化验证
解决方案:
- 模型压缩:蒸馏到10B规模
- 分层决策:VLA负责高层理解,传统系统负责执行
- 置信度阈值:低置信时回退到保守策略
- 场景回放:持续验证和改进
这种创新应用展示了Foundation Model如何补充传统自动驾驶系统,不是替代而是增强,特别是在需要常识推理和社会智能的场景中。
题目8:安全性与效率的权衡
一个自动驾驶系统在十字路口左转时,检测到对向直行车辆。系统计算出两种策略:
- 策略A:等待3秒,100%安全通过
- 策略B:立即左转,95%安全概率,节省3秒
作为系统设计者,你会如何设计决策机制?考虑不同stakeholder的需求。
提示(Hint): 考虑乘客、其他道路使用者、运营商、监管机构的不同视角。
参考答案
多维度分析框架:
- Stakeholder需求分析:
- 乘客:安全 > 舒适 > 效率
- 其他道路使用者:可预测性、安全性
- 运营商(Robotaxi):效率、客户满意度、责任规避
- 监管机构:零事故、合规性、公众接受度
- 保险公司:风险最小化
- 决策机制设计:
基础安全阈值系统:
if (安全概率 < 99.9%):
选择等待
else:
考虑效率因素
但这过于简单,更好的设计:
多因素决策矩阵:
决策分数 = w1×安全性 + w2×效率 + w3×舒适度 + w4×交通流影响
其中权重动态调整:
- 学校区域:w1=0.95, w2=0.05
- 高速公路:w1=0.7, w2=0.3
- 深夜无人:w1=0.6, w2=0.4
- 情境化决策规则:
场景1:学校上学时间
- 始终选择策略A(100%安全)
- 理由:儿童可能突然出现,社会零容忍
场景2:深夜空旷道路
- 如果安全概率≥99%,可选择策略B
- 理由:风险极低,提高效率
场景3:救护车在后
- 评估让路需求,可能选择策略B
- 理由:紧急情况下的权衡
场景4:雨天路滑
- 提高安全阈值至99.99%
- 理由:事故后果更严重
- 创新机制:协商式交互
系统检测对向车 → 发送意图信号(V2V) → 接收确认 → 协调通过
↓(无V2V)
使用视觉线索判断
↓
保守策略(等待)
- 责任与透明度设计:
决策日志:
{
"timestamp": "2024-01-01 10:30:15",
"scenario": "unprotected_left_turn",
"options": [
{"action": "wait", "safety": 1.0, "delay": 3},
{"action": "go", "safety": 0.95, "delay": 0}
],
"decision": "wait",
"factors": {
"weather": "clear",
"traffic": "moderate",
"special_zone": "none"
},
"reasoning": "安全阈值未满足(0.95 < 0.999)"
}
- 渐进式风险承担:
- 初期部署:保守策略(总是选A)
- 数据积累期:记录但不执行策略B
- 验证期:特定条件下执行策略B
- 成熟期:基于统计显著性扩大策略B使用
- 乘客偏好设置:
用户配置文件:
□ 舒适模式(总是最安全)
☑ 标准模式(平衡安全与效率)
□ 效率模式(在法规允许范围内优化时间)
- 社会契约考虑:
- 公开安全标准:「我们的系统确保99.99%的决策安全性」
- 事故保险:运营商承担全部责任
- 持续改进承诺:每个决策都用于改进算法
最终建议:
采用动态阈值+情境感知的决策机制:
- 基础安全阈值:99.9%
- 根据场景调整(学校区:99.99%,深夜:99%)
- 记录所有决策用于事后分析
- 定期发布安全报告建立公众信任
- 保留人工远程介入能力
这种设计平衡了各方需求,既保证了安全性,又不会过度保守影响交通效率。关键是透明度和可审计性,让所有stakeholder理解和信任系统决策。
下一章预告: 第2章:自动驾驶车辆定位
在下一章中,我们将深入探讨自动驾驶的"我在哪里"问题,包括GNSS/INS组合导航、SLAM技术、高精地图匹配等定位技术,以及最新的神经隐式表示方法。