自动驾驶系统工程教程

课程简介

本教程面向资深工程师和AI科学家，全面介绍自动驾驶系统的核心技术、最新进展和工程实践。课程重点关注2023-2025年的突破性技术，包括端到端学习、基于Transformer的感知系统、以及Vision-Language-Action (VLA)模型在自动驾驶中的应用。

学习目标

完成本教程后，您将能够：

深入理解自动驾驶系统的完整技术栈
掌握最新的深度学习方法在自动驾驶中的应用
理解端到端学习架构的设计原则和权衡
评估和设计基于Transformer的感知系统
理解VLA模型（如Wayve LINGO-2, DriveVLM）的架构和应用
设计和优化自动驾驶的云端和边缘计算系统

先修要求

深度学习基础（CNN, RNN, Transformer架构）
计算机视觉和信号处理基础
控制理论基础知识
概率论与统计学
C++/Python编程经验
ROS或类似中间件使用经验

课程章节

第1章：自动驾驶导论

核心内容：自动驾驶的历史演进、SAE级别定义、技术栈概览、产业现状与挑战

关键技术：

传统模块化架构 vs 端到端架构
感知-预测-规划 pipeline
最新趋势：Foundation Models在自动驾驶中的应用

学习要点：理解自动驾驶系统的复杂性和各子系统的相互依赖关系

第2章：自动驾驶车辆定位

核心内容：高精度定位技术、多传感器融合、SLAM算法、地图匹配

关键技术：

GNSS/INS组合导航
激光SLAM与视觉SLAM
神经隐式表示（NeRF）在定位中的应用
众包地图更新机制

学习要点：理解厘米级定位的实现方法和各种定位技术的优缺点

第3章：自动驾驶感知系统

核心内容：多模态感知、3D目标检测、语义分割、传感器融合策略

关键技术：

Camera、LiDAR、Radar、4D毫米波雷达
BEV (Bird's Eye View) 统一表示
早期融合 vs 后期融合
时序融合与跟踪

学习要点：掌握多传感器融合的设计原则和BEV感知的最新进展

第4章：深度学习在自动驾驶感知中的应用

核心内容：Transformer架构、自监督学习、域适应、小样本学习

关键技术：

Vision Transformer (ViT) 及其变体
DETR系列检测器
BEVFormer、BEVDet等BEV感知网络
Occupancy Network与体素表示
CLIP/DINO等预训练模型的迁移

学习要点：理解Transformer如何革新自动驾驶感知，掌握自监督预训练策略

第5章：预测与路径规划

核心内容：行为预测、轨迹生成、地图表示、路径搜索

关键技术：

基于图神经网络的交互建模
Transformer用于多智能体轨迹预测
向量化地图表示
概率轨迹预测与多模态输出

学习要点：理解预测不确定性的建模和多智能体交互的复杂性

第6章：决策、规划与控制

核心内容：行为决策、运动规划、轨迹优化、车辆控制

关键技术：

基于优化的规划方法
采样基础规划器
Model Predictive Control (MPC)
安全性约束与舒适性指标

学习要点：掌握从高层决策到底层控制的完整链路

第7章：基于强化学习的规划与控制

核心内容：深度强化学习、模仿学习、逆强化学习、安全强化学习

关键技术：

端到端驾驶策略学习
World Models与想象力规划
Offline RL与数据驱动方法
基于Transformer的决策模型（Decision Transformer）

学习要点：理解RL在自动驾驶中的机遇与挑战，特别是安全性保证

第8章：自动驾驶客户端系统

核心内容：车载计算平台、实时操作系统、中间件架构、功能安全

关键技术：

异构计算架构（GPU/NPU/DSP）
AUTOSAR与ROS2
确定性调度与实时性保证
ISO 26262功能安全标准

学习要点：理解车载系统的资源约束和安全性要求

第9章：自动驾驶云平台

核心内容：数据管理、仿真平台、模型训练、OTA更新

关键技术：

大规模数据标注与管理
场景生成与仿真验证
分布式训练基础设施
持续集成与部署（CI/CD）

学习要点：掌握数据驱动开发流程和大规模机器学习系统

第10章：复杂交通环境下的末端配送车辆

核心内容：低速自动驾驶、末端配送场景、人机交互、社会接受度

关键技术：

非结构化环境感知
行人意图理解
自然语言交互
远程监控与接管

学习要点：理解末端配送的独特挑战和商业化路径

第11章：端到端自动驾驶

核心内容：端到端学习架构、模块化vs端到端的权衡、可解释性与安全性

关键技术：

UniAD：统一的自动驾驶算法框架
Tesla FSD v12：纯视觉端到端神经网络
Wayve LINGO系列：视觉-语言-动作的驾驶模型
隐式vs显式中间表示
端到端系统的验证与测试

学习要点：理解端到端架构的优势与挑战，掌握从感知到控制的直接映射方法

第12章：Vision-Language-Action (VLA) 模型

核心内容：多模态基础模型、自然语言指令驾驶、场景理解与推理

关键技术：

Wayve LINGO-2：语言增强的驾驶模型
DriveVLM：视觉语言驾驶智能体
DriveLM：基于大语言模型的驾驶决策
RT-2/RT-X：机器人Transformer的驾驶迁移
Chain-of-Thought驾驶推理

学习要点：掌握如何将大语言模型能力迁移到自动驾驶，理解多模态融合的新范式

第13章：基于Transformer的感知系统

核心内容：注意力机制在3D感知中的应用、时序建模、计算效率优化

关键技术：

BEVFormer：时空Transformer的BEV感知
DETR3D/PETR：基于查询的3D检测
StreamPETR：流式感知与长时序建模
Flash Attention在车载部署
Sparse Transformer与高效推理

学习要点：理解Transformer如何统一感知任务，掌握注意力机制在3D空间的应用

第14章：具身智能与自动驾驶

核心内容：具身智能理论、世界模型、主动感知、环境交互与适应

关键技术：

世界模型（World Models）与内部仿真
基于好奇心的主动探索
多模态感知-行动循环
通用具身智能向驾驶任务的迁移
机器人学习算法在自动驾驶的应用（BC, GAIL, IQL）
物理常识推理与因果理解

学习要点：理解自动驾驶作为具身AI任务的本质，掌握从通用具身智能到特定驾驶任务的知识迁移

学习建议

理论与实践结合：每章的练习题设计了理论推导和实际问题解决
关注最新进展：定期阅读顶会论文和工业界技术报告
系统思维：理解各模块间的依赖和权衡
安全第一：始终将安全性作为设计的首要考虑

评估方式

每章包含6-8道练习题：

基础题（50%）：检验对核心概念的理解
挑战题（50%）：开放性问题，培养批判性思维

所有答案提供详细解析，帮助深入理解技术原理。

章节导航

基础篇（第1-6章）：自动驾驶核心技术栈 进阶篇（第7-10章）：高级算法与系统设计 前沿篇（第11-14章）：最新技术突破与未来趋势

本教程持续更新中，反映自动驾驶领域的最新进展。

开始学习: 第1章：自动驾驶导论 →

自动驾驶系统工程教程

课程简介

学习目标

先修要求

课程章节

第1章：自动驾驶导论

第2章：自动驾驶车辆定位

第3章：自动驾驶感知系统

第4章：深度学习在自动驾驶感知中的应用

第5章：预测与路径规划

第6章：决策、规划与控制

第7章：基于强化学习的规划与控制

第8章：自动驾驶客户端系统

第9章：自动驾驶云平台

第10章：复杂交通环境下的末端配送车辆

第11章：端到端自动驾驶

第12章：Vision-Language-Action (VLA) 模型

第13章：基于Transformer的感知系统

第14章：具身智能与自动驾驶

推荐资源

论文集

开源项目

技术博客

学习建议

评估方式

章节导航