这是一套面向研究生与工程团队的系统课程,目标是把 V‑L‑A 从“看懂/说清”推向“做对/可交付”。全书以视觉—语言—行动的三模态闭环为主线,沿着预训练 → 跨模态对齐 → 强化学习 →(单/多智能体)仿真 → Sim‑to‑Real的证据链展开,强调行动是价值载体与安全是第一约束。你将搭建一条可复现的工程路径:感知基座与不确定性估计、语言编排与工具调用、行动信号与控制先验、形式化屏蔽与运行时保障(RTA)、以及从离线回放到现场验收的评测协议。建议先修:线性代数/概率统计/优化与控制、基础深度学习(最好具备 PyTorch/JAX 实践);有自动驾驶或机器人背景更佳。学习路线推荐:先通读第 1–5 章建立概念地图,再按“7→8→9→10→11”的主线完成 Lab 与大作业,必要时回看第 2/4/6 章的感知与行动细节。课程的成功标准只有一个:把策略安全地跑在仿真与现实中,并能解释其行为与边界。
摘要
本章建立 VLA 的基本框架:视觉感知、语言推理与工具编排、以及可度量的行动输出三者构成闭环。特别强调行动是系统的最终输出与价值载体,其时间序列信号的质量决定系统可用性与安全性。通过两个代表性场景(自动驾驶与机器人操控)引发兴趣,突出多智能体交互中“礼让/谦逊”与“优雅处置异常”的重要性。
小节目录
摘要
回顾视觉表征三条主线:①经典视觉(CNN/金字塔/部件分解);②视觉—语言对齐(如对比学习/CLIP);③视频自/半监督(重建、下一帧预测)。讨论视觉模态的核心挑战:难以符号化、高质量图文对齐数据不足、以及纯压缩是否等于“抽象”的争议。为后续对齐、RL 与 Sim-to-Real 夯实感知基座。特别加入开集识别/不确定性估计(温度缩放、能量分数)与时域错位鲁棒性讨论。 小节目录
摘要
语言承载人类最强的符号推理与过程编排能力。重点:Chain-of-Thought(分步推理)、记忆机制(短/长程、检索)、工具调用(代码、API、检索、思考预算调度)。语言不仅是“文本”,更是系统调度器,为视觉与行动提供可解释的组织与约束,并在 Sim-to-Real 中承担策略解释与干预角色。 小节目录
摘要
从信号处理/控制视角刻画行动:行动是时间序列与可控信号。讨论轨迹表示(如Frenet-Serret 标架)、因果性与时延、平滑与约束(加速度/跃度),以及频域/谱域表征与音频类比。覆盖解码策略与同步问题,强调可评估、可解释、可控的行动生成,为仿真与 Sim-to-Real 做好接口。本章补上闭环稳定性与相位裕度与离散化采样(ZOH/零阶保持)影响的小节;并给出“低带宽安全轨迹生成器”的参考接口(输入目标曲线→输出带加加速度/跃度边界的轨迹)。 小节目录
摘要
聚焦三对对齐:视觉—语言(早/中/后期融合)、语言—行动(从指令到策略/轨迹)、视觉—行动(直接/经语言中介、频域耦合)。讨论门控/注意力/共享码本等机制与对比、互信息、互监督、蒸馏等训练信号,并给出可复现的评测协议。为后续 RL、仿真与 Sim-to-Real 减少域间落差。建议加入多目标冲突调和的梯度外科手术(PCGrad/GradNorm)与损失权自动调度实验脚手架。 小节目录
摘要
在缺乏大规模 3D 监督的条件下,以隐式 3D 支架强化视觉/视频理解:用几何与物理先验提升未来预测的可实现性与一致性;将 3D 作为长期记忆以应对遮挡与重访;权衡显式/隐式 3D 的延迟与精度,并与对齐/行动/仿真/Sim-to-Real 的接口协同。建议加“可实现性检查”:预测的 3D 状态是否动力学可达(feasibility check),并提供矛盾检测器(几何一致性 vs 观测)。
小节目录 (重写版)
摘要
构建 VLA 基座模型的两阶段思路:先模态内预训练(视觉/语言/行动),再跨模态对齐预训练。覆盖训练日程设计、Token 配额(Token Buckets)分配、数据配方与损失函数组合(对比、重建、策略蒸馏、频域损失、跨模态一致性)。在产出环节显式考虑下游 RL→仿真→Sim-to-Real的可迁移性。本章建议给出一个具体日程原型(示例数字即可),并阐明冻结/解冻策略与混合采样退火曲线。增补检查点“可迁移性体检”。 小节目录
摘要
在基座之上进行模型级 RL 微调:比较 SFT、RFT(Reinforcement Fine-Tuning) 与 RL 的互补性;利用演示启动与行为正则提高数据效率;借助Chain-of-Thought与自评估进行自反式指导;设计稳健奖励/偏好(RLHF/RLAIF 思想)与安全约束。产物需面向仿真与 Sim-to-Real 的落地(策略平滑与安全裕度)。本章显式加入OPE(离线策略评估):IPS/DR/FQE 三件套。 小节目录
摘要
从“仅用轨迹文本”的模型级 RL,迈向在仿真环境中交互的智能体级 RL。无论是代码物理引擎还是神经仿真,仿真可提供丰富且可编程的奖励与终局评估(如碰撞、时距、停车线对齐度),但也带来误差累积/模型偏差。本章聚焦单智能体(如一辆车在路网/停车场)的训练协议,并系统衔接到 Sim-to-Real 的准备与评测。 小节目录
摘要
多智能体问题的本质是相互耦合的决策与约束共享。本章桥接两条主线:①基于均衡的博弈建模(Nash/相关均衡/Stackelberg/贝叶斯博弈/潜在博弈)与其学习动态(虚拟对弈、无悔学习、复制子动态);②基于多智能体强化学习(MARL)的可扩展近似(CTDE、价值分解、对手建模、协作与混合博弈)。在工程侧,以无信号交汇的自动驾驶为核心案例,系统呈现约束求解器(MPC/MIQP/CBF)与形式化方法(LTL/STL Shield、可行域/生存域)如何与博弈/MARL 组合,形成可解释且可审计的协同策略。最后给出可复现实验协议与评测指标,作为从第 9 章(单智能体仿真)迈向第 11 章(Sim‑to‑Real)的承上启下。本章建议补强三点:通信与意图协议(显式 turn-taking / implicit signaling);公平性度量(价格-公平权衡、社交合规罚则);对手失范/恶意行为(异常 agent 注入与恢复流程)。 小节目录
摘要
本章深入探讨 Sim-to-Real 的前沿领域——神经化 Sim-to-Real。传统 Sim-to-Real 方法依赖于对物理世界进行精确的数学建模与繁琐的参数辨识,这条路径在面对高维感知和复杂动力学时常常显得力不从心。神经化方法则另辟蹊径,利用深度学习强大的函数逼近与分布学习能力,直接从数据中学习和补偿仿真与现实之间的高维、非结构化差异。在本章中,我们将系统性地剖析三条核心技术路线:① 用神经模型增强仿真器,通过神经渲染和神经动力学,让虚拟世界无限逼近物理现实;② 学习能够跨域自适应的策略,赋予智能体在未知环境中在线推理和调整的能力;③ 将强大的神经策略与形式化安全框结合,为不可避免的模型不确定性提供一个可验证的安全“护栏”。学完本章,你将不仅理解神经化 Sim-to-Real 的理论基础,更能掌握一套设计、实施和评其端到端流程的工程方法论,为你的 VLA 模型从虚拟走向现实,铺平最后、也最关键的一公里。
小节目录
要点速记
摘要
小实验强调可复现、低成本、可量化,面向 2–6 学时的练习,覆盖从对齐→行动→仿真→Sim-to-Real 的关键环节。每个实验给出目标、数据/资源、步骤、指标、提交物与加分项,保证不同硬件条件下都有软件仿真替身。 小节目录
摘要
大作业面向 6–8 周,要求端到端证据链:数据→模型→仿真→评测→(可选)小规模现实验证→报告与开源。给出四条主题轨与里程碑节拍,并提供评审 Rubric、伦理与安全红线。 小节目录
摘要
VLA 的价值不在看懂/说清”,而在做对。本课程以三模态闭环为主线,贯穿预训练→对齐→RL→仿真→Sim-to-Real,强调从信号与控制视角理解行动质量,用系统工程的方法管理不确定性与安全。最后给出十一条实战箴言与开放问题,指向下一代可部署的通用行动智能。追加一条:“先定稳定域,再谈性能极限”(Stability before optimality)。 小节目录