robot_control_tutorial

第14章：虚实迁移

本章探讨机器人控制中最具挑战性的问题之一：如何将在仿真环境中开发的控制策略成功部署到真实机器人系统。我们将深入分析仿真与现实之间的差距来源，介绍主流的虚实迁移技术，并通过强化学习策略的实际案例展示这些方法的应用。掌握虚实迁移技术对于加速机器人系统的开发迭代、降低实验成本和提高系统鲁棒性至关重要。

14.1 仿真与现实的差距

14.1.1 差距的根源分析

仿真与现实之间的差距（Reality Gap）是机器人控制领域的核心挑战。这种差距主要源于以下几个方面：

物理建模误差

仿真器的物理引擎在建模真实世界时不可避免地存在简化和近似：

接触力学简化：大多数仿真器使用简化的接触模型，如点接触或刚体接触，而真实世界中的接触涉及复杂的变形、粘附和微观相互作用。
摩擦模型偏差：库仑摩擦模型虽然广泛使用，但无法准确描述静摩擦到动摩擦的过渡、速度依赖性摩擦以及各向异性摩擦。
材料属性近似：真实材料的非线性、粘弹性和温度依赖性特性在仿真中通常被忽略。

仿真模型:                     真实世界:
┌─────────────────┐          ┌─────────────────┐
│  理想刚体       │          │  柔性变形体     │
│  点接触         │   VS     │  面接触         │
│  库仑摩擦       │          │  复杂摩擦现象   │
│  常数参数       │          │  时变参数       │
└─────────────────┘          └─────────────────┘

传感器噪声与延迟

真实传感器存在多种非理想特性：

测量噪声：传感器输出包含各种噪声成分，包括白噪声、1/f噪声、量化噪声等。
系统延迟：从传感器采集到控制命令执行存在不可忽略的延迟，包括传感器延迟、通信延迟和执行器响应延迟。
标定误差：传感器的内外参标定误差直接影响测量精度。

传感器误差模型可以表示为： $\mathbf{z}_{\text{real}} = h(\mathbf{x}_{\text{true}}) + \mathbf{n}_{\text{sensor}} + \mathbf{b}_{\text{drift}}(t)$

其中 $h(\cdot)$ 是非线性测量函数，$\mathbf{n}{\text{sensor}}$ 是测量噪声，$\mathbf{b}{\text{drift}}(t)$ 是时变漂移。

执行器动力学

真实执行器的复杂动力学特性难以精确建模：

非线性特性：包括死区、饱和、迟滞等非线性现象。
动态响应：执行器的带宽限制、相位延迟和谐振模式。
传动系统：齿轮间隙、弹性变形和传动效率的变化。

执行器的实际输出可以建模为： $\tau_{\text{actual}} = f_{\text{actuator}}(\tau_{\text{cmd}}, \dot{q}, t)$

其中 $f_{\text{actuator}}$ 包含了所有非理想特性。

14.1.2 差距的定量评估

为了有效地解决虚实差距，我们需要定量评估这种差距的大小和影响：

性能度量差异

定义仿真和真实世界中的性能度量差异： $\Delta_{\text{perf}} = \mathbb{E}_{\pi}[R_{\text{sim}}] - \mathbb{E}_{\pi}[R_{\text{real}}]$

其中 $R$ 表示累积奖励或任务性能指标。

动力学预测误差

评估动力学模型的预测精度： $e_{\text{dyn}} = \frac{1}{T}\sum_{t=1}^{T} \|\mathbf{x}_{t+1}^{\text{real}} - f_{\text{sim}}(\mathbf{x}_t^{\text{real}}, \mathbf{u}_t)\|$

策略退化率

衡量策略从仿真到真实环境的性能退化： $\eta = 1 - \frac{J_{\text{real}}(\pi_{\text{sim}})}{J_{\text{sim}}(\pi_{\text{sim}})}$

其中 $J(\pi)$ 是策略 $\pi$ 的期望回报。

14.1.3 差距的影响分析

虚实差距对不同类型的控制任务影响各异，理解这些差异对于制定针对性的解决方案至关重要。

准静态任务

对于慢速、准静态的操作任务，系统动力学可以简化为运动学约束，主要挑战包括：

几何精度要求：装配、插拔等任务对位置精度要求极高，典型公差在0.1-1mm量级。几何标定误差、机械变形和齿轮间隙都会影响最终精度。
接触检测与定位：准静态接触时，接触力较小，对力传感器的分辨率和噪声水平要求更高。接触位置的准确判断直接影响后续操作。
摩擦力主导：在慢速运动中，摩擦力成为主导因素，静摩擦到动摩擦的转换（stick-slip现象）难以准确建模。

误差传播模型： $\Delta \mathbf{p}_{ee} = \mathbf{J}(\mathbf{q})\Delta\mathbf{q} + \sum_{i=1}^{n}\frac{\partial \mathbf{p}_{ee}}{\partial l_i}\Delta l_i$

其中第一项是关节误差的影响，第二项是连杆长度误差的累积。

动态任务

高速运动和动态平衡任务的特点：

惯性力主导：动态任务中惯性力占主导地位，质量和惯性参数的误差会被速度和加速度放大： $\Delta \boldsymbol{\tau} = \Delta\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{M}(\mathbf{q})\Delta\ddot{\mathbf{q}}$

在高加速度运动中，即使5%的质量误差也可能导致显著的力矩偏差。
动力学耦合：多自由度系统中，科里奥利力和离心力产生复杂的耦合效应： $\mathbf{C}(\mathbf{q}, \dot{\mathbf{q}}) = \sum_{i,j,k} \Gamma_{ijk}(\mathbf{q})\dot{q}_j\dot{q}_k$

这些非线性耦合项的建模误差在高速运动时被放大。
稳定性边界敏感：动态平衡任务（如双足行走、单轮平衡）工作在稳定性边界附近，微小的模型误差可能导致失稳： $\lambda_{max}(\mathbf{A}_{cl}) = \lambda_{max}(\mathbf{A}_{nom} + \Delta\mathbf{A})$

其中闭环系统的最大特征值决定稳定性。

接触丰富任务

涉及频繁接触切换的任务面临独特挑战：

接触模式切换：从非接触到接触的转换涉及离散事件，时间精度要求在毫秒级： $t_{impact} = t_{planned} + \Delta t_{model} + \Delta t_{sensor} + \Delta t_{actuator}$
冲击动力学：接触瞬间的冲击力难以准确建模，涉及材料变形、能量耗散等复杂现象： $\mathbf{p}^+ = \mathbf{p}^- + \int_{t_{impact}}^{t_{impact}+\epsilon} \mathbf{f}_{impact}(t)dt$
多点接触协调：多足机器人、多指抓取等涉及多个接触点的协调控制： $\begin{bmatrix} \mathbf{f}_1 \\ \vdots \\ \mathbf{f}_n \end{bmatrix} = \mathbf{G}^{\dagger}\mathbf{w} + \mathbf{N}\boldsymbol{\lambda}$

其中 $\mathbf{G}$ 是抓取矩阵，$\mathbf{N}$ 是零空间基。

任务特定的缓解策略

根据任务类型选择合适的虚实迁移策略：

任务类型	主要差距源	推荐策略	关键参数
准静态操作	几何误差、摩擦	视觉伺服、力控制	位置精度、力分辨率
动态运动	惯性参数、延迟	自适应控制、鲁棒控制	带宽、相位裕度
接触切换	接触模型、时序	阻抗控制、事件触发	接触刚度、阻尼比
灵巧操作	多模态不确定性	学习+传统混合	探索-利用平衡

14.2 域随机化与域适应

14.2.1 域随机化技术

域随机化（Domain Randomization）通过在仿真训练中引入参数变化，提高策略对模型不确定性的鲁棒性。

参数随机化策略

系统地随机化仿真参数以覆盖真实世界的可能变化：

动力学参数：
- 质量和惯性：$m_i \sim \mathcal{U}[m_i^{\text{nom}} - \Delta m, m_i^{\text{nom}} + \Delta m]$
- 摩擦系数：$\mu \sim \mathcal{U}[\mu_{\text{min}}, \mu_{\text{max}}]$
- 阻尼系数：$b \sim \mathcal{N}(b_{\text{nom}}, \sigma_b^2)$
几何参数：
- 连杆长度：$l_i \sim \mathcal{N}(l_i^{\text{nom}}, \sigma_l^2)$
- 关节偏移：$\theta_{\text{offset}} \sim \mathcal{U}[-\delta\theta, \delta\theta]$
环境参数：
- 地形特性：高度图、摩擦分布、刚度变化
- 外部扰动：随机力、风载、负载变化

自适应域随机化

基于真实世界性能反馈动态调整随机化范围：

\[\mathcal{D}_{\text{rand}}^{(k+1)} = \mathcal{D}_{\text{rand}}^{(k)} + \alpha \nabla_{\mathcal{D}} J_{\text{real}}(\pi_{\mathcal{D}})\]

其中 $\mathcal{D}{\text{rand}}$ 是随机化分布，$J{\text{real}}$ 是真实世界性能。

视觉域随机化

对于视觉输入的机器人系统，需要额外的视觉随机化：

光照变化：环境光强度、方向、颜色温度
纹理随机化：物体表面纹理、背景图案
相机参数：内参扰动、镜头畸变、图像噪声

视觉随机化流程:
原始图像 → 光照变换 → 纹理替换 → 噪声添加 → 几何变换 → 训练输入
     ↓          ↓           ↓           ↓           ↓
  I_original  I_illum    I_texture   I_noise    I_final

14.2.2 域适应方法

域适应（Domain Adaptation）技术旨在减小源域（仿真）和目标域（真实）之间的分布差异。

特征对齐方法

通过最小化域间特征分布差异实现适应：

最大均值差异（MMD）： $\text{MMD}^2 = \left\|\frac{1}{n_s}\sum_{i=1}^{n_s}\phi(\mathbf{x}_i^s) - \frac{1}{n_t}\sum_{j=1}^{n_t}\phi(\mathbf{x}_j^t)\right\|_{\mathcal{H}}^2$

其中 $\phi$ 是特征映射，$\mathcal{H}$ 是再生核希尔伯特空间。

对抗域适应：使用域鉴别器和特征提取器的对抗训练：

\[\min_{\theta_f} \max_{\theta_d} \mathcal{L}_{\text{task}}(\theta_f) - \lambda \mathcal{L}_{\text{domain}}(\theta_f, \theta_d)\]

其中 $\theta_f$ 是特征提取器参数，$\theta_d$ 是域鉴别器参数。

系统辨识驱动的适应

基于真实系统数据更新仿真参数：

参数估计： $\hat{\boldsymbol{\theta}} = \arg\min_{\boldsymbol{\theta}} \sum_{t=1}^{T} \|\mathbf{x}_{t+1}^{\text{real}} - f_{\text{sim}}(\mathbf{x}_t^{\text{real}}, \mathbf{u}_t; \boldsymbol{\theta})\|^2$
贝叶斯推断： $p(\boldsymbol{\theta}|\mathcal{D}_{\text{real}}) \propto p(\mathcal{D}_{\text{real}}|\boldsymbol{\theta}) p(\boldsymbol{\theta})$
在线适应：使用扩展卡尔曼滤波或粒子滤波实时更新参数估计。

14.2.3 元学习方法

元学习（Learning to Learn）为虚实迁移提供了一种优雅的解决方案，使策略能够从少量真实世界数据中快速适应新环境。

模型无关元学习（MAML）

MAML的核心思想是找到一个初始参数，使得策略能够通过少量梯度步骤快速适应新任务：

优化目标： $\boldsymbol{\theta}^* = \arg\min_{\boldsymbol{\theta}} \sum_{\mathcal{T}_i \sim p(\mathcal{T})} \mathcal{L}_{\mathcal{T}_i}(\boldsymbol{\theta} - \alpha\nabla_{\boldsymbol{\theta}}\mathcal{L}_{\mathcal{T}_i}(\boldsymbol{\theta}))$

算法流程：

内循环适应：对每个任务 $\mathcal{T}_i$，计算适应后的参数： $\boldsymbol{\theta}_i' = \boldsymbol{\theta} - \alpha\sum_{(\mathbf{s}, \mathbf{a}, r) \in \mathcal{D}_i^{train}} \nabla_{\boldsymbol{\theta}}\mathcal{L}(\mathbf{s}, \mathbf{a}, r; \boldsymbol{\theta})$
外循环元优化：使用适应后的性能更新元参数： $\boldsymbol{\theta} \leftarrow \boldsymbol{\theta} - \beta\sum_i \nabla_{\boldsymbol{\theta}}\mathcal{L}_{\mathcal{T}_i}(\boldsymbol{\theta}_i')$
真实世界部署：收集少量真实数据，执行内循环适应获得 $\boldsymbol{\theta}_{real}’$。

MAML的优势在于：

只需要5-10个真实世界episode即可适应
不需要重新设计网络架构
可以处理多模态的任务分布

Reptile算法

Reptile是MAML的一阶近似，计算效率更高：

\[\boldsymbol{\theta} \leftarrow \boldsymbol{\theta} + \epsilon(\tilde{\boldsymbol{\theta}} - \boldsymbol{\theta})\]

其中 $\tilde{\boldsymbol{\theta}}$ 是在任务上训练k步后的参数： $\tilde{\boldsymbol{\theta}} = \text{SGD}(\mathcal{L}_{\mathcal{T}_i}, \boldsymbol{\theta}, k)$

Reptile避免了二阶导数计算，更适合大规模网络。

上下文条件策略

通过学习环境编码器，策略可以根据观测历史推断当前环境特性：

架构设计： $\pi(\mathbf{a}|\mathbf{s}, \mathbf{z}) = \pi_{\boldsymbol{\theta}}(\mathbf{a}|\mathbf{s}, e_{\phi}(\mathbf{z}))$

其中环境上下文 $\mathbf{z}$ 通过历史编码获得： $\mathbf{z}_t = f_{enc}(\{\mathbf{o}_{t-H}, \mathbf{a}_{t-H}, ..., \mathbf{o}_{t-1}, \mathbf{a}_{t-1}\})$

编码器选择：

RNN编码器：捕获时序依赖 $\mathbf{h}_t = \text{GRU}(\mathbf{h}_{t-1}, [\mathbf{o}_t; \mathbf{a}_t])$ $\mathbf{z}_t = \mathbf{h}_t$
Attention编码器：选择性关注重要历史 $\mathbf{z}_t = \sum_{i=t-H}^{t-1} \alpha_i \mathbf{v}_i$ $\alpha_i = \text{softmax}(\mathbf{q}_t^T \mathbf{k}_i / \sqrt{d})$
变分编码器：学习环境的概率表示 $q(\mathbf{z}|\mathcal{H}) = \mathcal{N}(\mu_{\phi}(\mathcal{H}), \sigma_{\phi}^2(\mathcal{H}))$

任务嵌入学习

学习任务的低维表示空间，实现任务间的泛化：

\[\mathbf{e}_{task} = g_{\psi}(\{\mathcal{D}_{task}^{demo}\})\]

策略条件化： $\pi(\mathbf{a}|\mathbf{s}) = f_{\theta}(\mathbf{s}, \mathbf{e}_{task})$

任务嵌入的性质：

相似任务在嵌入空间中距离较近
可以通过插值生成新任务
支持零样本泛化到嵌入空间内的新点

元强化学习（Meta-RL）

结合强化学习和元学习，实现在线适应：

RL²（Recurrent RL）方法： $\pi(\mathbf{a}_t|\mathbf{s}_t, \mathbf{h}_{t-1}) = f_{\theta}(\mathbf{s}_t, \mathbf{h}_{t-1})$ $\mathbf{h}_t = g_{\theta}(\mathbf{h}_{t-1}, \mathbf{s}_t, \mathbf{a}_t, r_t)$

隐状态 $\mathbf{h}_t$ 编码了任务相关信息，策略通过与环境交互逐步推断任务特性。

概率推断视角

从贝叶斯推断角度理解元学习：

后验推断： $p(\mathcal{T}|\mathcal{D}) \propto p(\mathcal{D}|\mathcal{T})p(\mathcal{T})$

变分推断近似： $q_{\phi}(\mathcal{T}|\mathcal{D}) \approx p(\mathcal{T}|\mathcal{D})$

ELBO优化： $\mathcal{L} = \mathbb{E}_{q_{\phi}}[\log p(\mathcal{D}|\mathcal{T})] - D_{KL}[q_{\phi}(\mathcal{T}|\mathcal{D})||p(\mathcal{T})]$

14.3 系统辨识与自适应控制

14.3.1 离线系统辨识

离线系统辨识通过收集的数据批量估计系统参数，为控制器设计提供准确的模型。

激励轨迹设计

设计富有信息的激励信号以充分激发系统动态：

持续激励条件：输入信号 $\mathbf{u}(t)$ 满足持续激励条件当且仅当： $\frac{1}{T}\int_0^T \boldsymbol{\Phi}(t)\boldsymbol{\Phi}^T(t)dt > \alpha \mathbf{I}, \quad \alpha > 0$

其中 $\boldsymbol{\Phi}(t)$ 是回归矩阵。
优化激励设计：最大化Fisher信息矩阵的行列式： $\mathbf{u}^* = \arg\max_{\mathbf{u}} \det\left(\sum_{t=1}^{T} \left(\frac{\partial \mathbf{y}_t}{\partial \boldsymbol{\theta}}\right)^T \mathbf{R}^{-1} \left(\frac{\partial \mathbf{y}_t}{\partial \boldsymbol{\theta}}\right)\right)$

参数估计方法

最小二乘法：对于线性参数化模型 $\mathbf{y} = \boldsymbol{\Phi}\boldsymbol{\theta} + \boldsymbol{\epsilon}$： $\hat{\boldsymbol{\theta}} = (\boldsymbol{\Phi}^T\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^T\mathbf{y}$
最大似然估计： $\hat{\boldsymbol{\theta}}_{\text{ML}} = \arg\max_{\boldsymbol{\theta}} \prod_{i=1}^{N} p(\mathbf{y}_i|\mathbf{x}_i, \mathbf{u}_i, \boldsymbol{\theta})$
贝叶斯参数估计：结合先验知识： $p(\boldsymbol{\theta}|\mathcal{D}) = \frac{p(\mathcal{D}|\boldsymbol{\theta})p(\boldsymbol{\theta})}{\int p(\mathcal{D}|\boldsymbol{\theta}')p(\boldsymbol{\theta}')d\boldsymbol{\theta}'}$

模型验证与选择

交叉验证：使用独立数据集评估模型预测性能。
信息准则：
- Akaike信息准则（AIC）：$\text{AIC} = 2k - 2\ln(\hat{L})$
- 贝叶斯信息准则（BIC）：$\text{BIC} = k\ln(n) - 2\ln(\hat{L})$
残差分析：检验残差的白噪声特性和正态性。

14.3.2 在线系统辨识

在线辨识实时更新模型参数，适应系统的时变特性。

递归最小二乘（RLS）

递归更新参数估计： $\begin{aligned} \hat{\boldsymbol{\theta}}_{k+1} &= \hat{\boldsymbol{\theta}}_k + \mathbf{K}_{k+1}(\mathbf{y}_{k+1} - \boldsymbol{\phi}_{k+1}^T\hat{\boldsymbol{\theta}}_k) \\ \mathbf{K}_{k+1} &= \frac{\mathbf{P}_k\boldsymbol{\phi}_{k+1}}{\lambda + \boldsymbol{\phi}_{k+1}^T\mathbf{P}_k\boldsymbol{\phi}_{k+1}} \\ \mathbf{P}_{k+1} &= \frac{1}{\lambda}(\mathbf{P}_k - \mathbf{K}_{k+1}\boldsymbol{\phi}_{k+1}^T\mathbf{P}_k) \end{aligned}$

其中 $\lambda$ 是遗忘因子，$0 < \lambda \leq 1$。

扩展卡尔曼滤波（EKF）辨识

同时估计状态和参数： $\begin{bmatrix} \mathbf{x}_{k+1} \\ \boldsymbol{\theta}_{k+1} \end{bmatrix} = \begin{bmatrix} f(\mathbf{x}_k, \mathbf{u}_k, \boldsymbol{\theta}_k) \\ \boldsymbol{\theta}_k \end{bmatrix} + \begin{bmatrix} \mathbf{w}_x \\ \mathbf{w}_\theta \end{bmatrix}$

使用EKF递归更新增广状态估计。

粒子滤波辨识

处理非线性非高斯系统：

采样粒子：$\boldsymbol{\theta}^{(i)} \sim q(\boldsymbol{\theta} \boldsymbol{\theta}_{k-1}^{(i)}, \mathbf{y}_k)$

更新权重：$w_k^{(i)} \propto w_{k-1}^{(i)} \frac{p(\mathbf{y}_k

\boldsymbol{\theta}^{(i)})p(\boldsymbol{\theta}^{(i)}

\boldsymbol{\theta}_{k-1}^{(i)})}{q(\boldsymbol{\theta}^{(i)}

\boldsymbol{\theta}_{k-1}^{(i)}, \mathbf{y}_k)}$

重采样：根据权重重新采样粒子

14.3.3 自适应控制策略

基于在线辨识结果动态调整控制器参数。

模型参考自适应控制（MRAC）

设计自适应律使系统输出跟踪参考模型：

参考模型： $\dot{\mathbf{x}}_m = \mathbf{A}_m\mathbf{x}_m + \mathbf{B}_m\mathbf{r}$

自适应控制律： $\mathbf{u} = \mathbf{K}_x^T(t)\mathbf{x} + \mathbf{K}_r^T(t)\mathbf{r}$

参数更新律（MIT规则）： $\begin{aligned} \dot{\mathbf{K}}_x &= -\gamma_x \mathbf{e}^T\mathbf{P}\mathbf{B}\mathbf{x}^T \\ \dot{\mathbf{K}}_r &= -\gamma_r \mathbf{e}^T\mathbf{P}\mathbf{B}\mathbf{r}^T \end{aligned}$

其中 $\mathbf{e} = \mathbf{x} - \mathbf{x}_m$ 是跟踪误差，$\mathbf{P}$ 是Lyapunov方程的解。

自适应滑模控制

结合滑模控制的鲁棒性和参数自适应：

滑模面： $s = \mathbf{c}^T\mathbf{e}$

控制律： $u = -\hat{f}(\mathbf{x}) - \hat{b}(\mathbf{x})^{-1}[\mathbf{c}^T\dot{\mathbf{e}}_d + k\cdot\text{sgn}(s)]$

参数自适应律： $\begin{aligned} \dot{\hat{f}} &= \gamma_f s \\ \dot{\hat{b}} &= -\gamma_b s u \end{aligned}$

L1自适应控制

通过快速自适应和低通滤波实现鲁棒性能：

架构示意:
参考输入 → [自适应律] → [控制律] → [低通滤波] → 系统
            ↑                           ↓
            └────── 预测误差 ←──────────┘

状态预测器： $\dot{\hat{\mathbf{x}}} = \mathbf{A}_m\hat{\mathbf{x}} + \mathbf{B}_m(u + \hat{\sigma})$

自适应律： $\hat{\sigma}(t) = -\Phi^{-1}(0)e^{\mathbf{A}_m t}\tilde{\mathbf{x}}(0)$

控制律： $u(s) = -C(s)\hat{\sigma}(s)$

其中 $C(s)$ 是低通滤波器。

14.4 案例研究：强化学习策略的sim-to-real转移

14.4.1 问题设定

考虑四足机器人的敏捷运动控制任务，目标是训练一个能够在复杂地形上稳定行走和跑步的策略。

任务定义

状态空间： $\mathbf{s} = [\mathbf{q}, \dot{\mathbf{q}}, \mathbf{R}_b, \boldsymbol{\omega}_b, \mathbf{v}_{cmd}, \mathbf{h}_{terrain}]$

包含关节位置速度、基座姿态、角速度、速度指令和地形高度图。

动作空间： $\mathbf{a} = [\mathbf{q}_{target}] \in \mathbb{R}^{12}$

12个关节的目标位置。

奖励函数： $r = r_{velocity} + r_{stability} - c_{energy} - c_{impact}$

其中：

$r_{velocity} = \exp(-|\mathbf{v}{actual} - \mathbf{v}{cmd}|^2)$
$r_{stability} = \exp(-|\boldsymbol{\omega}_b|^2)$
$c_{energy} = \alpha_e \sum_i \tau_i \dot{q}_i $
$c_{impact} = \alpha_i \sum_{feet} |\mathbf{f}_{impact}|^2$

14.4.2 训练策略

第一阶段：基础策略训练

在简化的仿真环境中训练基础运动策略：

课程学习：逐步增加任务难度：
- Level 1: 平地站立和慢速行走
- Level 2: 不规则地形行走
- Level 3: 动态步态和快速运动
- Level 4: 极限条件和干扰恢复
PPO算法优化： $\mathcal{L}^{CLIP}(\theta) = \mathbb{E}_t[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)]$

第二阶段：域随机化训练

系统地随机化仿真参数：

# 参数随机化范围
randomization_params = {
    'mass': [0.8, 1.2],           # 质量倍数
    'inertia': [0.5, 1.5],         # 惯性倍数
    'friction': [0.5, 1.25],       # 摩擦系数
    'restitution': [0.0, 0.5],     # 恢复系数
    'motor_strength': [0.8, 1.2],  # 电机力矩
    'joint_damping': [0.8, 1.5],   # 关节阻尼
    'latency': [0.01, 0.04],       # 控制延迟
    'noise_scale': [0.0, 0.1]      # 传感器噪声
}

第三阶段：自适应特征学习

训练环境参数估计器：

\[\mathbf{z}_t = \text{GRU}(\mathbf{o}_{t-H:t})\]

其中 $\mathbf{z}_t$ 是环境特征编码，用于条件化策略：

\[\pi(\mathbf{a}_t|\mathbf{s}_t, \mathbf{z}_t) = \mathcal{N}(\mu_\theta(\mathbf{s}_t, \mathbf{z}_t), \sigma^2)\]

14.4.3 部署与实验结果

硬件部署流程

初始安全测试：
- 在悬挂测试台上验证基本运动
- 检查关节限位和紧急停止功能
- 验证通信延迟和控制频率

渐进式部署：

仿真测试 → 悬挂测试 → 平地测试 → 简单地形 → 复杂环境
     ↓           ↓           ↓           ↓           ↓
100% sim    mixed      50% real    75% real   100% real

在线微调：收集真实数据进行策略微调： $\theta_{real} = \theta_{sim} - \alpha \nabla_\theta \mathcal{L}_{real}(\theta_{sim})$

性能评估指标

速度跟踪误差： $e_{velocity} = \frac{1}{T}\int_0^T \|\mathbf{v}_{cmd} - \mathbf{v}_{actual}\| dt$
能量效率（COT）： $\text{COT} = \frac{P_{mechanical}}{mg\cdot v_{avg}}$
稳定性指标：
- 姿态偏差：$\sigma_{roll}, \sigma_{pitch}$
- 足端滑移率
- 恢复时间

实验结果分析

典型的sim-to-real性能对比：

指标	纯仿真训练	域随机化	域随机化+自适应
速度跟踪误差 (m/s)	0.35	0.18	0.12
成功率	45%	78%	92%
COT	2.8	2.1	1.9
最大速度 (m/s)	1.2	2.5	3.0

关键发现

接触动力学是主要差距：脚地接触的建模误差对性能影响最大，需要重点进行接触参数的随机化。
延迟补偿至关重要：真实系统的控制延迟（20-40ms）显著影响高频控制性能，需要在训练中模拟。
自适应能力提升鲁棒性：能够在线估计环境参数的策略表现出更好的泛化能力。

14.5 本章小结

本章深入探讨了机器人控制中的虚实迁移问题，这是将仿真中开发的控制策略成功应用于真实系统的关键挑战。

核心概念回顾

仿真与现实差距的本质：
- 物理建模误差：接触力学、摩擦模型、材料属性的简化
- 传感器特性：噪声、延迟、标定误差
- 执行器动力学：非线性特性、带宽限制、传动系统影响
域随机化技术：
- 参数随机化：系统地变化动力学、几何和环境参数
- 自适应域随机化：基于真实性能反馈调整随机化范围
- 视觉域随机化：光照、纹理、相机参数的变化
域适应方法：
- 特征对齐：MMD、对抗训练等技术
- 系统辨识驱动：参数估计、贝叶斯推断
- 元学习：MAML、上下文条件策略
系统辨识与自适应控制：
- 离线辨识：激励设计、参数估计、模型验证
- 在线辨识：RLS、EKF、粒子滤波
- 自适应策略：MRAC、自适应滑模、L1自适应

关键公式汇总

性能差距度量： $\Delta_{\text{perf}} = \mathbb{E}_{\pi}[R_{\text{sim}}] - \mathbb{E}_{\pi}[R_{\text{real}}]$

域随机化更新： $\mathcal{D}_{\text{rand}}^{(k+1)} = \mathcal{D}_{\text{rand}}^{(k)} + \alpha \nabla_{\mathcal{D}} J_{\text{real}}(\pi_{\mathcal{D}})$

递归最小二乘更新： $\hat{\boldsymbol{\theta}}_{k+1} = \hat{\boldsymbol{\theta}}_k + \mathbf{K}_{k+1}(\mathbf{y}_{k+1} - \boldsymbol{\phi}_{k+1}^T\hat{\boldsymbol{\theta}}_k)$

MRAC自适应律： $\dot{\mathbf{K}}_x = -\gamma_x \mathbf{e}^T\mathbf{P}\mathbf{B}\mathbf{x}^T$

实践经验总结

渐进式部署策略：从仿真到悬挂测试，再到简单环境，最后到复杂场景的逐步过渡。
关键差距识别：接触动力学和系统延迟通常是最主要的差距来源，需要重点关注。
组合方法效果最佳：域随机化与自适应技术的结合通常能达到最好的迁移效果。
安全性优先：在真实部署时，必须设置合理的安全边界和紧急停止机制。

14.6 练习题

基础题

习题14.1 参数敏感性分析给定一个二连杆机械臂的动力学模型，其中连杆质量 $m_1 = 1.0$ kg，$m_2 = 0.5$ kg，连杆长度 $l_1 = l_2 = 0.3$ m。如果真实系统中 $m_2$ 的实际值为 0.45 kg，分析这个5%的质量误差对末端执行器轨迹跟踪精度的影响。

提示：考虑动力学方程中质量矩阵的变化对控制力矩的影响。

答案

质量误差导致的动力学模型偏差： $$\Delta \mathbf{M} = \mathbf{M}_{\text{real}} - \mathbf{M}_{\text{model}}$$ 对于给定的质量误差，末端位置误差约为： $$e_{\text{pos}} \approx 0.05 \times l_2 \times \sin(\theta_2) \approx 0.015\sin(\theta_2)$$ m 在最坏情况下（$\theta_2 = 90°$），位置误差可达15mm，这对精密任务可能是不可接受的。建议使用自适应控制或在线参数估计来补偿这种误差。

习题14.2 域随机化范围设计设计一个四足机器人地面摩擦系数的域随机化策略。已知实验室地板的摩擦系数约为0.7，目标是使机器人能在摩擦系数0.3-1.0的各种地面上行走。

提示：考虑训练时的采样分布和课程学习策略。

答案

建议采用以下域随机化策略： 1. 初始阶段：$\mu \sim \mathcal{U}[0.6, 0.8]$，接近名义值 2. 中期扩展：$\mu \sim \mathcal{U}[0.5, 0.9]$ 3. 最终阶段：$\mu \sim \mathcal{U}[0.3, 1.0]$ 采样分布可以使用Beta分布偏向常见值： $$\mu \sim 0.3 + 0.7 \times \text{Beta}(2, 2)$$ 这样既覆盖了极端情况，又在常见范围内有更多采样。

习题14.3 延迟补偿设计某机器人系统的控制回路总延迟为30ms（传感器10ms + 通信5ms + 计算10ms + 执行器5ms）。设计一个简单的延迟补偿方案。

提示：考虑使用预测模型或历史信息。

答案

采用Smith预测器进行延迟补偿： 1. 构建系统的预测模型： $$\hat{\mathbf{x}}(t+\tau) = f(\mathbf{x}(t), \mathbf{u}(t))$$ 2. 基于预测状态计算控制： $$\mathbf{u}(t) = \mathbf{K}(\mathbf{x}_{\text{ref}}(t+\tau) - \hat{\mathbf{x}}(t+\tau))$$ 3. 对于30ms延迟，可以使用二阶泰勒展开： $$\hat{\mathbf{x}}(t+0.03) \approx \mathbf{x}(t) + 0.03\dot{\mathbf{x}}(t) + 0.0045\ddot{\mathbf{x}}(t)$$

习题14.4 性能退化评估一个在仿真中训练的抓取策略，仿真成功率为95%，部署到真实机器人后成功率降至70%。计算策略退化率并分析可能的原因。

提示：使用本章定义的退化率公式。

答案

策略退化率： $$\eta = 1 - \frac{0.70}{0.95} = 0.263 = 26.3\%$$ 可能原因分析： 1. 接触力学建模不准（约10-15%影响） 2. 视觉系统差异（约5-10%影响） 3. 执行器响应差异（约5%影响） 4. 环境光照/背景变化（约5%影响）建议优先改进接触模型和增加视觉域随机化。

挑战题

习题14.5 自适应域随机化算法设计设计一个自适应域随机化算法，能够根据真实世界测试结果自动调整仿真参数的随机化范围。算法应该能识别哪些参数的随机化范围过大或过小。

提示：考虑使用贝叶斯优化或进化策略。

答案

自适应域随机化算法框架： 1. **性能相关性分析**：对每个参数 $p_i$，计算其与真实性能的相关性： $$\rho_i = \text{corr}(p_i, J_{\text{real}})$$ 2. **范围调整策略**： ``` if |ρ_i| > threshold: if variance(J_real) > target_var: reduce range of p_i by factor α else: increase range of p_i by factor β ``` 3. **贝叶斯优化更新**：使用高斯过程建模： $$J_{\text{real}} \sim \mathcal{GP}(\mu(\mathcal{D}), k(\mathcal{D}, \mathcal{D}'))$$ 选择下一个随机化配置： $$\mathcal{D}_{\text{next}} = \arg\max_{\mathcal{D}} \text{EI}(\mathcal{D})$$ 4. **收敛准则**：当连续k轮性能改善 < ε时停止调整。

习题14.6 多任务虚实迁移设计一个方案，使一个机器人策略能够同时适应多个不同的真实环境（如不同摩擦的地面、不同负载等）。策略应该能够快速识别当前环境并调整行为。

提示：考虑元学习和环境编码器的结合。

答案

多任务虚实迁移方案： 1. **环境编码器设计**： ``` 历史观测 → GRU/LSTM → 环境特征z o_{t-H:t} → encoder → z_t ∈ R^d ``` 2. **条件策略网络**： $$\pi(\mathbf{a}|\mathbf{s}, \mathbf{z}) = \text{MLP}([\mathbf{s}; \mathbf{z}])$$ 3. **训练策略**： - 阶段1：在多个环境配置中训练编码器和策略 - 阶段2：使用MAML进行元训练： $$\min_{\theta} \sum_{env} \mathcal{L}_{env}(\theta - \alpha\nabla\mathcal{L}_{env}(\theta))$$ - 阶段3：少样本适应新环境 4. **在线适应**： - 收集初始5-10秒数据 - 推断环境特征z - 使用条件策略π(·|·,z) - 持续更新z的估计 5. **鲁棒性保证**：添加最坏情况约束： $$\max_{\mathbf{z} \in \mathcal{Z}} J(\pi_{\mathbf{z}}) \geq J_{\text{min}}$$

习题14.7 接触丰富任务的虚实迁移针对一个需要精确力控制的装配任务（如将轴插入孔中），设计完整的虚实迁移方案。任务要求位置精度0.1mm，力控制精度0.5N。

提示：考虑混合位置/力控制和接触模型的精确标定。

答案

精密装配任务虚实迁移方案： 1. **高保真接触建模**： - 使用软接触模型：$f = k(x-x_0)^n + b\dot{x}$ - 参数辨识：通过专门实验标定k, n, b 2. **混合控制策略**： ``` 位置控制模式：|f| < f_threshold 力控制模式：|f| ≥ f_threshold 过渡区：平滑切换权重 ``` 3. **域随机化重点**： - 孔位置误差：±0.5mm - 接触刚度：k ∈ [0.8k_nom, 1.2k_nom] - 摩擦系数：μ ∈ [0.1, 0.5] - 传感器噪声：力传感器±0.2N，位置±0.05mm 4. **分阶段训练**： - 阶段1：自由空间运动到接触 - 阶段2：接触后搜索孔位 - 阶段3：插入动作优化 5. **真实部署优化**： - 使用阻抗控制：$f = K_p(x_d - x) + K_d(\dot{x}_d - \dot{x})$ - 在线调整阻抗参数 - 添加螺旋搜索作为失败恢复策略

习题14.8 开放性思考：基础模型与虚实迁移讨论如何利用大规模视觉-语言-动作基础模型来改进虚实迁移。考虑预训练表征、零样本迁移和提示工程等方面。

提示：思考基础模型的泛化能力如何帮助弥合虚实差距。

答案

基础模型改进虚实迁移的潜在方向： 1. **预训练表征的鲁棒性**： - 基础模型在大规模真实数据上训练，天然具有对真实世界变化的鲁棒性 - 可以作为特征提取器，减少对仿真视觉真实度的依赖 2. **语言引导的任务泛化**： - 使用自然语言描述任务，减少对特定环境配置的过拟合 - 示例："gently insert the peg avoiding excessive force" 3. **少样本适应能力**： - 利用in-context learning，通过少量真实演示快速适应 - 不需要大量真实数据的微调 4. **常识推理弥补建模缺陷**： - 基础模型的常识可以补偿仿真中未建模的物理现象 - 例如：理解"湿滑表面"意味着需要更谨慎的动作 5. **挑战与未来方向**： - 实时性：当前基础模型推理速度难以满足高频控制 - 可解释性：黑盒特性使调试困难 - 安全性：如何保证基础模型输出的安全边界 - 研究方向：轻量化部署、可验证的安全保证、与传统控制的融合未来可能出现专门的"机器人基础模型"，在预训练阶段就考虑物理约束和控制需求。

14.7 常见陷阱与调试技巧

常见错误

过度依赖域随机化
- 错误：认为增加随机化范围总是有益的
- 正确：过大的随机化范围可能导致策略过于保守
- 解决：使用课程学习逐步增加随机化范围
忽视系统延迟
- 错误：仿真中使用零延迟假设
- 影响：真实部署时出现振荡或不稳定
- 解决：在仿真中准确建模各环节延迟
不合理的奖励函数
- 错误：奖励函数包含仿真中易获得但现实中难以测量的信息
- 影响：策略依赖不可用信息
- 解决：只使用真实可获得的传感器信息设计奖励
忽略安全约束
- 错误：直接部署仿真中的激进策略
- 风险：硬件损坏或安全事故
- 解决：添加安全层、速度限制、力矩限制

调试技巧

差距定位方法 ``` 性能下降 → 分解测试：
- 纯运动学任务 → 定位几何误差
- 准静态任务 → 定位质量/惯性误差
- 动态任务 → 定位动力学参数误差
- 接触任务 → 定位接触模型误差 ```
渐进式验证
- 从简单到复杂：静态→准静态→动态
- 从开环到闭环：前馈控制→反馈控制→自适应控制
- 从单一到组合：单关节→多关节协调→全身控制
数据驱动诊断
- 记录详细的传感器数据和控制命令
- 对比仿真和真实的时间序列
- 使用系统辨识工具定量评估参数误差
快速迭代策略
- 维护可快速切换的多个策略版本
- 使用数字孪生进行并行测试
- 建立自动化的评估流程

通过系统地应用这些技术和避免常见陷阱，可以显著提高虚实迁移的成功率，加速机器人系统从仿真到实际应用的部署过程。