第8章 强化学习与微调:从指令遵循到策略优化
8.1 开篇段落
在前面的章节中,我们已经构建了一个强大的 VLA 预训练基座模型,它能够通过模仿学习(如行为克隆)对世界产生初步的理解和行动能力。然而,仅仅“模仿”是不够的。真实世界的任务要求智能体能够优化性能、适应未见过的场景、并从交互的后果中学习,而不仅仅是复制专家数据。本章将深入探讨如何通强化学习(RL)和相关微调技术,将我们的 VLA 模型从一个被动的“模仿者”转变为一个主动的“决策者”。
我们将系统地比较监督微调(SFT)、强化微调 (RFT, 一种基于偏好学习的方法) 和经典环境交互式强化学习的优劣与适用场景。我们将引用最新的实证研究,剖析 RL 究竟能在 VLA 的哪些泛化维度(视觉、语义、执行)上带来超越 SFT 的收益。在此基础上,我们将深入探讨策略优化的核心算法,并介绍自反式指导、可验证奖励等前沿技术。特别地,我们将借鉴 VLA-R1 和 Seed1.5-Thinking 等前沿工作中的经验,深入探讨在处理需要复杂推理(如长思维链 CoT)的任务时,如何设计数据、奖励模型和算法来克服 RL 训练的不稳定性。
本章的学习目标是,掌握一套将预训练模型转化为能够进行目标导向优化、同时兼顾安全与效率的高级策略的完整方法论,学会使用离线策略评估(OPE)在部署前科学地评估其潜在性能,为后续的仿真与 Sim-to-Real 迁移奠定坚实的策略基础。
8.2 文字论述
8.2.1 SFT vs. RFT vs. RL:记忆、偏好与泛化的权衡
从预训练基座模型出发,提升其特定任务能力的路径并非只有一条。选择哪条路径,取决于数据可用性、任务的性质以及对泛化能力的追求。
-
监督微调 (Supervised Fine-Tuning, SFT) - 学习“做什么”
-
核心思想: SFT 本质上是行为克隆 (Behavior Cloning, BC) 的延续。它使用高质量的“状态-行动”或“指令-答案”对
(s, a)数据集,通过最大化专家行为的对数似然来进行微调。它教模型模仿一个已知的“正确答案”。 $$ L_{SFT}(\theta) = -\mathbb{E}_{(s, a) \sim \mathcal{D}_{expert}} [\log \pi_\theta(a|s)] $$ -
优点: 简单、稳定、对数据质量要求高但利用直接。是冷启一个策略的最佳起点。
- 缺点:
- 分布偏移 (Distribution Shift): 模型在执行中遇到微小未见过的状态,可能导致错误累积。
- 次优天花板: 模型的性能上限被专家数据所限制,无法发现超越专家的更优策略。实证研究表明,SFT 的性能会随着数据量的增加而饱和。
-
-
强化微调 (Reinforcement Fine-Tuning, RFT) - 学习“怎么做”
- 核心思想: RFT 是一种基于偏好学习 (Preference Learning) 的高级微调技术。它承认了为复杂任务(如“以优雅的方式抓取”、“以安全的风格驾驶”)设计一个精确的奖励函数极其困难。因此,它不教模型模仿“正确答案”,而是通过奖励一个行为偏好来引导模型。其核心区别在于:SFT 教模型“说什么/做什么 (What to say/do)”,而 RFT 教模型“怎么说/怎么做 (How to say/do)”。
- 关键组件:
- 基础型 (Base Model): 我们想要微调的 VLA 模型。
- 偏好数据集 (Preference Dataset): 这是训练“裁判”的数据。数据格式是“prompt - chosen_completion - rejected_completion” 的三元组。在 VLA 领域,这对应于“状态/指令 - 更优的行动轨迹 - 较差的行动轨迹”。
- 奖励模型 (Reward Model, RM): 一个专门训练的模型,任务是给任何一个“(状态, 行动序列)”对打分。它通过学习偏好数据集,力求给
chosen的行为打分高于rejected的行为。
-
工作流程三部曲:
- 准备偏好数据: 针对你的目标(如更平滑、更安全),创建包含
(state, chosen_action_sequence, rejected_action_sequence)的数据集。 -
训练奖励模型: 使用偏好数据训练 RM。其损失函数通常基于 Bradley-Terry 模型: $$ L(\phi) = -\mathbb{E}_{(s, a_w, a_l) \sim \mathcal{D}_{pref}} [\log(\sigma(r_\phi(s, a_w) - r_\phi(s, a_l)))] $$ 其中 $a_w$ (winner) 是更优的行为,$a_l$ (loser) 是较差的行为。
-
执行强化微调: 使用 PPO 等 RL 算法,以 RM 的输出作为奖励信号,微调基础模型。模型通过生成不同行为并从 RM 获得反馈,逐渐学会生成能获得高分的行为模式。
- VLA 典型用例:
- 提升动作的平滑性与效率:
prompt: "将蓝色杯子放到水槽里"chosen: (一条平滑、直接的机械臂轨迹)rejected: (一条犹豫、多次停顿、有冗余移动的轨迹)- 减少不必要的行为拒绝(在安全边界内更乐于助人):
prompt: "在一个略显狭窄的空间中抓取物体"chosen: (一个经过仔细规划、成功避开障碍的轨迹)rejected: (模型判断过于保守,直接输出“无法执行”或静止不动)- 提升驾驶风格的“拟人性”或“舒适度”:
prompt: (前方车辆减速的驾驶场景)chosen: (一个平滑、渐进的刹车动作)rejected: (一个突兀、让乘客不适的急刹车动作)
- 准备偏好数据: 针对你的目标(如更平滑、更安全),创建包含
-
环境交互强化学习 (RL from Environment Interaction) - 学习“为了什么做”
- 核心思想: 如果说 RFT 是从一个“品味裁判”(奖励模型)那里学习,那么这里的 RL 就是直接从“现实世界的后果”中学习。智能体直接与环境交互,接收由环境定义的、客观的标量奖励(如任务是否成功、是否发生碰撞、耗时多少),并以此优化策略。
- 优点与实证发现:
- 超越模仿: 能够发现超越人类的、全新的解决方案。
- 增强泛化 (来自《What Can RL Bring to VLA Generalization?》):
- 执行 (Execution) 泛化: 收益极其显著。RL 通过试错探索,学会了如何从败中恢复,这是 SFT 和 RFT 都难以直接教授的。
- 语义 (Semantics) 泛化: 收益中等。
- 视觉 (Vision) 泛化: 与 SFT 持平。
- 缺点: 样本效率极低,奖励函数设计是关键难点,且在线探索可能带来安全风险。
Rule-of-Thumb:
- 起点 (SFT): 永远从 SFT/BC 开始,教会模型任务的基本知识(“做什么”)。
- 塑造品味 (RFT): 当你需要调整模型的主观行为特性(如风格、语气、安全偏好,“怎么做”)时,使用 RFT。
- 优化结果 (RL): 当你有明确的、可量化的客观性能指标和高保真仿真器时,使用环境交互式 RL 来压榨性能极限(“为了什么做”)。
- 混合使用: 最佳实践是三者结合:用 SFT 初始化,用 RFT 对齐主观偏好,同时用环境稀疏奖励作为补充。
8.2.2 策略优化:核心算法与高效实践
(本节内容与上一保持一致,主要介绍 PPO、离线 RL 以及高效 PPO 的实践配方,这些是实现 RFT 和环境交互 RL 的底层算法。)
8.2.3 稳定化RL:来自 Seed1.5-Thinking 的前沿实践
(本节内容与上一版保持一致,介绍价值预训练、精细化优势估计、改进 PPO 裁剪和混合损失等高级稳定化技术。)
8.2.4 自反式指导与可验证奖励:RFT 的客观对应物
RFT 通过学习人类偏好来处理主观、难以量化的目标。然而,在 VLA 领域,许多任务的“好坏”是可以被客观、自动地验证的。 这就引出了与 RFT 互补的另一条强大路径:基于可验证奖励的 RL。
-
自反式指导与 CoT: VLA-R1 的工作完美诠释了这一点。
- SFT 注入思考模式: 首先,在包含显式
<think>...</think>推理链的 CoT 数据集上进行 SFT。 - RL 优化思考与行动: 在 RL 阶段,模型生成的完整文本(思考+行动)将一并接受可验证奖励评估。
- SFT 注入思考模式: 首先,在包含显式
-
设计可验证奖励 (Verifiable Rewards): VLA-R1 提出了一套精细化的、可自动验证的奖励函数:
- 轨迹奖励: 采用角度-长度增强 Fréchet 距离 (ALAF) 来奖励路径的平滑度和动态一致性。
- 空间定位奖励: 使用广义交并比 (GIoU) 代替标准 IoU,在不重叠时也能提供有意义的梯度。
- 格式奖励: 一个二元奖励,确保模型的输出严格遵守预定结构。
- 消融研究证明: VLA-R1 的消融实验清晰地表明,
SFT < SFT + CoT < SFT + CoT + RL。这证明了显式推理 (CoT) 和后续优化 (RL) 两者相辅相成,缺一不可。
这揭示了一个核心的设计模式:当目标是主观的,使用 RFT;当目标是客观的,设计可验证奖励。
8.2.5 OPE(离线策略评估):不上线如何知好坏
在将新训练的策略 $\pi_e$ 部署到昂贵或危险的真实环境中之前,我们迫切需要一种方法,利用已有的离线数据集(由旧的或行为策略 $\pi_b$ 收集)来评估 $\pi_e$ 的性能。
- 重要性采样 (Inverse Propensity Scoring, IPS): 通过重要性权重 $\frac{\pi_e(a|s)}{\pi_b(a|s)}$ 来修正回报,但方差极大。
- 双重鲁棒估计 (Doubly Robust, DR): 结合了基于模型的估计(如 Q 函数)和 IPS,显著降低了方差,是当前最实用的 OPE 方法之一。
- 拟合Q评估 (Fitted Q-Evaluation, FQE): 直接在离线数据集上,为待评估的策略 $\pi_e$ 学习一个 Q 函数 $Q^{\pi_e}$。
Rule-of-Thumb: 在进行任何 RL 微调后,必须运行 OPE。首选 DR 估计器来获得策略价值的点估计和置信区间。永远不要完全信任 OPE 的结果,它只是部署决策的辅助依据,而非最终判决。
8.3 本章小结
本章系统地阐述了如何将预训练 VLA 模型通过微调和强化学习,从一个模仿者提升为高效的决策者。我们明确了 SFT、RFT 和环境交互式 RL 的核心差异与适用场景。
- 关键概念:
- 微调谱系: SFT 教会“做什么”,RFT 塑造“怎么做”,而环境交互式 RL 优化“为了什么做”。
- 偏好学习 (RFT): 通过奖励模型和对比数据,将主观的人类偏好转化为可优化的学习信号,是塑造模型行为风格和价值观的关键。
- RL的非对称收益: RL 对 VLA 的泛化能力提升主要体现在执行鲁棒性上。
- 可验证奖励: 与 RFT 处理主观目标相对应,为客观、可量化的任务维度设计精确的奖励函数是提升 RL 效率的另一条关键路径。
- 稳定化与高效RL: 采用共享主干、预热、最小化 Epochs 等高效实践,并结合价值预训练、改进 GAE 等高级技术来稳定训练过程。
- 离线评估 (OPE): 在部署前评估策略性能的必要工具,为决策提供数据支持。
8.4 常见陷阱与错误 (Gotchas)
-
奖励模型被利用 (Reward Model Exploitation)
- 现象: 这是 RFT 特有的风险。策略找到了一个方法来“欺骗”奖励模型获得高分,但产生的行为在人类看来却是无意义甚至错误的。这通常因为偏好数据覆盖的场景不够全面。
- 调试技巧: 采用迭代式的数据收集和模型训练。定期用当前最优策略生成样本,让人类标注者找出其中“高分但低质”的例子,加入到偏好数据集中,然后重新训练奖励模型。
-
奖励黑客 (Reward Hacking)
- 现象: 在环境交互式 RL 中,智能体找到了一个最大化奖励的“捷径”,但这个行为完全违背了设计者的初衷。
- 调试技巧: 使用多维度的、结构化的可验证奖励来减少漏洞。在训练过程中定期审查智能体的行为录像。
-
长程任务的RL训练崩溃
- 现象: 在需要长 CoT 或多步行动序列的任务中,PPO 训练过程非常不稳定。
- 调试技巧: 系统性实施本章介绍的稳定化技术组合:从价值预训练开始,调整 GAE 和 PPO 裁剪策略,并加入正样本 LM 损失来防止语言能力退化。
-
对 OPE 结果的盲目乐观
- 现象: OPE 报告性能提升,但上线后表现反而下降。
- 调试技巧: 始终报告 OPE 估计的置信区间。检查行为策略和评估策略的重合度。
-
灾难性遗忘 (Catastrophic Forgetting)
- 现象: 微调后,模型在原始任务上的性能大幅下降。
- 调试技巧: 在微调数据中混入原始任务数据,并使用行为克隆正则化。
-
忽略策略输出的物理可实现性
- 现象: RL 策略输出了物理上无法执行的行动序列。
- 调试技巧: 在奖励函数中加入对行动的平滑性惩罚,并将策略输出视为高层目标,由低级控制器执行。