自动驾驶系统工程教程
课程简介
本教程面向资深工程师和AI科学家,全面介绍自动驾驶系统的核心技术、最新进展和工程实践。课程重点关注2023-2025年的突破性技术,包括端到端学习、基于Transformer的感知系统、以及Vision-Language-Action (VLA)模型在自动驾驶中的应用。
学习目标
完成本教程后,您将能够:
- 深入理解自动驾驶系统的完整技术栈
- 掌握最新的深度学习方法在自动驾驶中的应用
- 理解端到端学习架构的设计原则和权衡
- 评估和设计基于Transformer的感知系统
- 理解VLA模型(如Wayve LINGO-2, DriveVLM)的架构和应用
- 设计和优化自动驾驶的云端和边缘计算系统
先修要求
- 深度学习基础(CNN, RNN, Transformer架构)
- 计算机视觉和信号处理基础
- 控制理论基础知识
- 概率论与统计学
- C++/Python编程经验
- ROS或类似中间件使用经验
课程章节
第1章:自动驾驶导论
核心内容:自动驾驶的历史演进、SAE级别定义、技术栈概览、产业现状与挑战
关键技术:
- 传统模块化架构 vs 端到端架构
- 感知-预测-规划 pipeline
- 最新趋势:Foundation Models在自动驾驶中的应用
学习要点:理解自动驾驶系统的复杂性和各子系统的相互依赖关系
第2章:自动驾驶车辆定位
核心内容:高精度定位技术、多传感器融合、SLAM算法、地图匹配
关键技术:
- GNSS/INS组合导航
- 激光SLAM与视觉SLAM
- 神经隐式表示(NeRF)在定位中的应用
- 众包地图更新机制
学习要点:理解厘米级定位的实现方法和各种定位技术的优缺点
第3章:自动驾驶感知系统
核心内容:多模态感知、3D目标检测、语义分割、传感器融合策略
关键技术:
- Camera、LiDAR、Radar、4D毫米波雷达
- BEV (Bird's Eye View) 统一表示
- 早期融合 vs 后期融合
- 时序融合与跟踪
学习要点:掌握多传感器融合的设计原则和BEV感知的最新进展
第4章:深度学习在自动驾驶感知中的应用
核心内容:Transformer架构、自监督学习、域适应、小样本学习
关键技术:
- Vision Transformer (ViT) 及其变体
- DETR系列检测器
- BEVFormer、BEVDet等BEV感知网络
- Occupancy Network与体素表示
- CLIP/DINO等预训练模型的迁移
学习要点:理解Transformer如何革新自动驾驶感知,掌握自监督预训练策略
第5章:预测与路径规划
核心内容:行为预测、轨迹生成、地图表示、路径搜索
关键技术:
- 基于图神经网络的交互建模
- Transformer用于多智能体轨迹预测
- 向量化地图表示
- 概率轨迹预测与多模态输出
学习要点:理解预测不确定性的建模和多智能体交互的复杂性
第6章:决策、规划与控制
核心内容:行为决策、运动规划、轨迹优化、车辆控制
关键技术:
- 基于优化的规划方法
- 采样基础规划器
- Model Predictive Control (MPC)
- 安全性约束与舒适性指标
学习要点:掌握从高层决策到底层控制的完整链路
第7章:基于强化学习的规划与控制
核心内容:深度强化学习、模仿学习、逆强化学习、安全强化学习
关键技术:
- 端到端驾驶策略学习
- World Models与想象力规划
- Offline RL与数据驱动方法
- 基于Transformer的决策模型(Decision Transformer)
学习要点:理解RL在自动驾驶中的机遇与挑战,特别是安全性保证
第8章:自动驾驶客户端系统
核心内容:车载计算平台、实时操作系统、中间件架构、功能安全
关键技术:
- 异构计算架构(GPU/NPU/DSP)
- AUTOSAR与ROS2
- 确定性调度与实时性保证
- ISO 26262功能安全标准
学习要点:理解车载系统的资源约束和安全性要求
第9章:自动驾驶云平台
核心内容:数据管理、仿真平台、模型训练、OTA更新
关键技术:
- 大规模数据标注与管理
- 场景生成与仿真验证
- 分布式训练基础设施
- 持续集成与部署(CI/CD)
学习要点:掌握数据驱动开发流程和大规模机器学习系统
第10章:复杂交通环境下的末端配送车辆
核心内容:低速自动驾驶、末端配送场景、人机交互、社会接受度
关键技术:
- 非结构化环境感知
- 行人意图理解
- 自然语言交互
- 远程监控与接管
学习要点:理解末端配送的独特挑战和商业化路径
第11章:端到端自动驾驶
核心内容:端到端学习架构、模块化vs端到端的权衡、可解释性与安全性
关键技术:
- UniAD:统一的自动驾驶算法框架
- Tesla FSD v12:纯视觉端到端神经网络
- Wayve LINGO系列:视觉-语言-动作的驾驶模型
- 隐式vs显式中间表示
- 端到端系统的验证与测试
学习要点:理解端到端架构的优势与挑战,掌握从感知到控制的直接映射方法
第12章:Vision-Language-Action (VLA) 模型
核心内容:多模态基础模型、自然语言指令驾驶、场景理解与推理
关键技术:
- Wayve LINGO-2:语言增强的驾驶模型
- DriveVLM:视觉语言驾驶智能体
- DriveLM:基于大语言模型的驾驶决策
- RT-2/RT-X:机器人Transformer的驾驶迁移
- Chain-of-Thought驾驶推理
学习要点:掌握如何将大语言模型能力迁移到自动驾驶,理解多模态融合的新范式
第13章:基于Transformer的感知系统
核心内容:注意力机制在3D感知中的应用、时序建模、计算效率优化
关键技术:
- BEVFormer:时空Transformer的BEV感知
- DETR3D/PETR:基于查询的3D检测
- StreamPETR:流式感知与长时序建模
- Flash Attention在车载部署
- Sparse Transformer与高效推理
学习要点:理解Transformer如何统一感知任务,掌握注意力机制在3D空间的应用
第14章:具身智能与自动驾驶
核心内容:具身智能理论、世界模型、主动感知、环境交互与适应
关键技术:
- 世界模型(World Models)与内部仿真
- 基于好奇心的主动探索
- 多模态感知-行动循环
- 通用具身智能向驾驶任务的迁移
- 机器人学习算法在自动驾驶的应用(BC, GAIL, IQL)
- 物理常识推理与因果理解
学习要点:理解自动驾驶作为具身AI任务的本质,掌握从通用具身智能到特定驾驶任务的知识迁移
推荐资源
论文集
- CVPR/ICCV/ECCV 自动驾驶专题
- NeurIPS/ICML 机器学习在自动驾驶中的应用
- IEEE IV/ITSC 智能交通系统会议
开源项目
- OpenPilot: 开源L2级自动驾驶系统
- Autoware: ROS基础的自动驾驶软件栈
- CARLA: 自动驾驶仿真平台
- nuScenes/Waymo Open Dataset: 大规模自动驾驶数据集
技术博客
- Wayve技术博客
- Tesla AI Day技术分享
- Waymo研究博客
- 各大自动驾驶公司技术博客
学习建议
- 理论与实践结合:每章的练习题设计了理论推导和实际问题解决
- 关注最新进展:定期阅读顶会论文和工业界技术报告
- 系统思维:理解各模块间的依赖和权衡
- 安全第一:始终将安全性作为设计的首要考虑
评估方式
每章包含6-8道练习题:
- 基础题(50%):检验对核心概念的理解
- 挑战题(50%):开放性问题,培养批判性思维
所有答案提供详细解析,帮助深入理解技术原理。
章节导航
基础篇(第1-6章):自动驾驶核心技术栈 进阶篇(第7-10章):高级算法与系统设计 前沿篇(第11-14章):最新技术突破与未来趋势
本教程持续更新中,反映自动驾驶领域的最新进展。
开始学习: 第1章:自动驾驶导论 →