smart_hand

第8章：控制算法与抓取规划

控制算法与抓取规划是灵巧手系统的”大脑”，决定了机械手如何精确、稳定、智能地完成复杂操作任务。本章将从底层的关节控制开始，逐步上升到高层的任务规划，系统介绍灵巧手控制的完整技术栈。我们将深入探讨经典控制理论在灵巧手中的应用，包括阻抗控制如何实现柔顺交互，抓取规划如何处理几何与物理约束，以及现代机器学习方法如何让灵巧手具备自主学习能力。通过本章学习，读者将掌握从PID到强化学习的多层次控制方法，理解从抓取到操作的完整规划流程，并能够设计适应不同任务需求的控制系统。

8.1 底层控制：关节空间与笛卡尔空间控制

8.1.1 关节空间控制

关节空间控制是最基础的控制层，直接作用于每个关节的电机或执行器。对于一个n自由度的灵巧手，关节空间控制器的目标是让关节角度向量 $\mathbf{q} = [q_1, q_2, …, q_n]^T$ 跟踪期望轨迹 $\mathbf{q}_d(t)$。

PID控制器设计

最常用的关节控制器是PID控制器，其控制律为：

\[\tau_i = K_{p,i}(q_{d,i} - q_i) + K_{d,i}(\dot{q}_{d,i} - \dot{q}_i) + K_{i,i}\int_0^t (q_{d,i} - q_i)dt\]

其中 $\tau_i$ 是第i个关节的控制力矩，$K_{p,i}$、$K_{d,i}$、$K_{i,i}$ 分别是比例、微分、积分增益。

对于灵巧手这样的多关节系统，需要考虑关节间的耦合效应。完整的动力学方程为：

\[\mathbf{M}(\mathbf{q})\ddot{\mathbf{q}} + \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} + \mathbf{G}(\mathbf{q}) = \boldsymbol{\tau} + \mathbf{J}^T\mathbf{F}_{ext}\]

其中：

$\mathbf{M}(\mathbf{q})$ 是质量矩阵
$\mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})$ 是科氏力和离心力矩阵
$\mathbf{G}(\mathbf{q})$ 是重力向量
$\mathbf{J}$ 是雅可比矩阵
$\mathbf{F}_{ext}$ 是外部作用力

计算力矩控制

为了处理动力学耦合，可以使用计算力矩控制（Computed Torque Control）：

\[\boldsymbol{\tau} = \mathbf{M}(\mathbf{q})[\ddot{\mathbf{q}}_d + \mathbf{K}_d(\dot{\mathbf{q}}_d - \dot{\mathbf{q}}) + \mathbf{K}_p(\mathbf{q}_d - \mathbf{q})] + \mathbf{C}(\mathbf{q}, \dot{\mathbf{q}})\dot{\mathbf{q}} + \mathbf{G}(\mathbf{q})\]

这种控制器通过动力学模型的逆运算来线性化和解耦系统，但需要精确的动力学模型。

8.1.2 笛卡尔空间控制

笛卡尔空间控制直接控制末端执行器（指尖）的位置和姿态，更符合任务描述的自然方式。

运动学控制

对于位置控制，使用雅可比矩阵建立关节速度与笛卡尔速度的关系：

\[\dot{\mathbf{x}} = \mathbf{J}(\mathbf{q})\dot{\mathbf{q}}\]

通过雅可比伪逆计算关节速度指令：

\[\dot{\mathbf{q}} = \mathbf{J}^{\dagger}(\dot{\mathbf{x}}_d + \mathbf{K}_p(\mathbf{x}_d - \mathbf{x}))\]

其中 $\mathbf{J}^{\dagger} = \mathbf{J}^T(\mathbf{J}\mathbf{J}^T)^{-1}$ 是雅可比伪逆。

奇异性处理

当雅可比矩阵接近奇异时，需要使用阻尼最小二乘法：

\[\mathbf{J}^{\dagger} = \mathbf{J}^T(\mathbf{J}\mathbf{J}^T + \lambda^2\mathbf{I})^{-1}\]

其中 $\lambda$ 是阻尼因子，可以根据可操作度 $w = \sqrt{\det(\mathbf{J}\mathbf{J}^T)}$ 自适应调整：

\[\lambda = \begin{cases} 0 & \text{if } w > w_{threshold} \\ \lambda_0(1 - \frac{w}{w_{threshold}})^2 & \text{if } w \leq w_{threshold} \end{cases}\]

8.1.3 多指协调控制

灵巧手的多个手指需要协调运动来完成抓取任务。协调控制的关键是处理运动学和动力学约束。

虚拟连杆模型

将被抓物体视为虚拟连杆，多指系统形成闭链机构：

     物体
    /  |  \
   /   |   \
  指1  指2  指3
   |   |   |
  掌部基座

闭链约束方程：

\[\mathbf{G}(\mathbf{q})\dot{\mathbf{q}} = \mathbf{0}\]

结合开链动力学，得到约束动力学方程：

\[\begin{bmatrix} \mathbf{M} & \mathbf{G}^T \\ \mathbf{G} & \mathbf{0} \end{bmatrix} \begin{bmatrix} \ddot{\mathbf{q}} \\ \boldsymbol{\lambda} \end{bmatrix} = \begin{bmatrix} \boldsymbol{\tau} - \mathbf{h} \\ -\dot{\mathbf{G}}\dot{\mathbf{q}} \end{bmatrix}\]

其中 $\boldsymbol{\lambda}$ 是拉格朗日乘子，表示约束力。

8.2 阻抗控制与导纳控制

8.2.1 阻抗控制原理

阻抗控制不直接控制位置或力，而是控制位置与力之间的动态关系，实现柔顺交互。期望的阻抗模型为：

\[\mathbf{M}_d(\ddot{\mathbf{x}} - \ddot{\mathbf{x}}_d) + \mathbf{D}_d(\dot{\mathbf{x}} - \dot{\mathbf{x}}_d) + \mathbf{K}_d(\mathbf{x} - \mathbf{x}_d) = \mathbf{F}_{ext}\]

其中 $\mathbf{M}_d$、$\mathbf{D}_d$、$\mathbf{K}_d$ 分别是期望的惯性、阻尼和刚度矩阵。

基于力矩的阻抗控制

控制律设计：

\[\boldsymbol{\tau} = \mathbf{J}^T[\mathbf{M}_d\ddot{\mathbf{x}}_r + \mathbf{D}_d\dot{\mathbf{x}}_e + \mathbf{K}_d\mathbf{x}_e - \mathbf{F}_{ext}] + \mathbf{g}(\mathbf{q})\]

其中：

$\mathbf{x}_e = \mathbf{x} - \mathbf{x}_d$ 是位置误差
$\dot{\mathbf{x}}_e = \dot{\mathbf{x}} - \dot{\mathbf{x}}_d$ 是速度误差
$\ddot{\mathbf{x}}_r = \ddot{\mathbf{x}}_d - \mathbf{M}_d^{-1}[\mathbf{D}_d\dot{\mathbf{x}}_e + \mathbf{K}_d\mathbf{x}_e]$

8.2.2 导纳控制

导纳控制是阻抗控制的对偶形式，输入力输出位置：

\[\ddot{\mathbf{x}} = \mathbf{M}_d^{-1}[\mathbf{F}_{ext} - \mathbf{D}_d\dot{\mathbf{x}} - \mathbf{K}_d\mathbf{x}]\]

导纳控制适用于位置控制精度高但力控制能力有限的系统。

实现框架：

测量接触力 $\mathbf{F}_{ext}$
计算期望加速度 $\ddot{\mathbf{x}}_d$
积分得到期望速度和位置
使用位置控制器跟踪

8.2.3 变阻抗控制

根据任务需求动态调整阻抗参数：

\[\mathbf{K}_d = \mathbf{K}_0 + \alpha(\mathbf{F}_{ext})\mathbf{K}_1\]

其中 $\alpha$ 是基于接触力的调节函数。例如，在自由空间运动时降低刚度以提高速度，接触时增加刚度以提高精度。

学习型阻抗调节

使用强化学习优化阻抗参数：

\[J = \sum_{t=0}^T [w_1||\mathbf{x}_e||^2 + w_2||\mathbf{F}_{ext} - \mathbf{F}_d||^2 + w_3||\mathbf{K}_d||^2]\]

通过策略梯度方法学习最优的阻抗调节策略 $\pi(\mathbf{K}_d

\mathbf{s})$。

8.3 抓取规划：抓取图与采样方法

8.3.1 抓取表示与质量度量

接触模型

点接触模型分类：

无摩擦点接触（PwoF）：只传递法向力
硬手指接触（HF）：传递3D力
软手指接触（SF）：传递3D力和绕法向的力矩

接触约束矩阵：

\[\mathbf{W} = \begin{bmatrix} \mathbf{W}_1 & \mathbf{W}_2 & ... & \mathbf{W}_k \end{bmatrix}\]

其中 $\mathbf{W}_i$ 是第i个接触点的约束矩阵。

抓取质量度量

力闭合判据：抓取矩阵 $\mathbf{G} = \mathbf{W}$ 的秩为6，且原点在接触力凸包内部。

Q1度量（最小扳手）：

\[Q_1 = \min_{\mathbf{w} \in \partial B} \max_{\mathbf{f} \in FC} \{\lambda : \lambda\mathbf{w} = \mathbf{Gf}\}\]

其中 $\partial B$ 是单位扳手球面，$FC$ 是摩擦锥约束集。

Q2度量（最大内切球）：

\[Q_2 = \max\{r : B_r \subseteq GWS\}\]

其中 $GWS$ 是抓取扳手空间。

8.3.2 抓取生成方法

解析方法

基于物体几何形状的解析计算：

平行夹爪抓取：搜索对跖点对
多指抓取：优化接触点分布

优化问题：

\[\begin{align} \max_{\mathbf{p}_i, \mathbf{n}_i} & \quad Q(\mathbf{p}_1, ..., \mathbf{p}_k) \\ \text{s.t.} & \quad \mathbf{p}_i \in \partial\Omega \\ & \quad \mathbf{n}_i \perp T_{\mathbf{p}_i}\partial\Omega \end{align}\]

采样方法

均匀采样：

for i = 1 to N:
    p = sample_surface_point()
    n = compute_normal(p)
    approach = sample_approach_direction(n)
    grasp = compute_grasp_pose(p, n, approach)
    quality = evaluate_grasp(grasp)
    if quality > threshold:
        add_to_grasp_set(grasp)

启发式采样：

曲率引导：高曲率区域采样概率更高
对称性利用：检测并利用物体对称性
经验先验：基于物体类别的抓取模板

8.3.3 深度学习抓取检测

抓取质量网络（GQ-CNN）

网络架构：

输入：深度图 + 抓取候选
     ↓
CNN特征提取
     ↓
空间变换网络（对齐抓取方向）
     ↓
全连接层
     ↓
输出：抓取成功概率

训练数据生成：

物理仿真生成抓取尝试
力闭合分析标注成功/失败
域随机化增强泛化性

端到端抓取网络

直接从图像预测抓取位姿：

\[\mathbf{g} = f_{\theta}(\mathbf{I})\]

其中 $\mathbf{g} = (x, y, z, \theta, w, q)$ 包含位置、角度、开口宽度和质量分数。

损失函数：

\[L = \lambda_1 L_{pos} + \lambda_2 L_{angle} + \lambda_3 L_{width} + \lambda_4 L_{quality}\]

8.4 操作规划：重抓取与灵巧操作

8.4.1 重抓取规划

重抓取（Regrasping）是通过改变抓取配置来调整物体位姿的过程。

抓取图构建

节点：稳定抓取配置边：可行的抓取转换

G1 --放置--> 桌面 --抓取--> G2
 |                           |
 └-------手内操作----------→┘

转换可行性判断：

运动学可达性
碰撞检测
稳定性保证

搜索算法

A*搜索：

\[f(n) = g(n) + h(n)\]

其中：

$g(n)$：从起始到当前的代价
$h(n)$：启发式估计（如位姿差异）

RRT-Connect：适用于高维配置空间的概率完备规划器。

8.4.2 手内操作

手内操作（In-hand Manipulation）通过手指的协调运动改变物体位姿。

滚动和滑动控制

运动学约束：

纯滚动：$\mathbf{v}_{contact} = \mathbf{0}$
控制滑动：$\mathbf{v}_{contact} = \mathbf{v}_d$

混合整数规划（MIP）formulation：

\[\begin{align} \min & \quad \sum_i ||\mathbf{f}_i||^2 + \sum_j c_j \\ \text{s.t.} & \quad \text{静力平衡} \\ & \quad \text{摩擦锥约束} \\ & \quad \text{接触模式约束} \end{align}\]

手指步态规划

类似于多足机器人的步态，手指交替移动：

时刻1: [接触, 接触, 移动]
时刻2: [接触, 移动, 接触]  
时刻3: [移动, 接触, 接触]

稳定性约束：始终保持足够的接触点维持力闭合。

8.4.3 灵巧操作原语

定义基本操作原语库：

平移：保持姿态不变移动物体
旋转：绕指定轴旋转
枢轴旋转：以一个接触点为支点旋转
手指行走：通过手指交替移动实现大范围重定位

原语组合实现复杂任务：

def reorient_object(target_pose):
    current = get_object_pose()
    if large_rotation_needed(current, target):
        finger_gaiting(intermediate_pose)
    pivot_rotation(align_axis)
    fine_adjustment(target_pose)

8.5 学习方法：模仿学习与强化学习

8.5.1 模仿学习

行为克隆（BC）

直接从专家演示学习策略：

\[\pi_{\theta} = \arg\min_{\theta} \mathbb{E}_{(\mathbf{s}, \mathbf{a}) \sim \mathcal{D}} [||\pi_{\theta}(\mathbf{s}) - \mathbf{a}||^2]\]

数据收集方法：

远程操作（Teleoperation）
动作捕捉（Motion Capture）
触觉示教（Kinesthetic Teaching）

逆强化学习（IRL）

从演示中学习奖励函数：

\[R_{\psi}^* = \arg\max_{\psi} \mathbb{E}_{\tau \sim \pi_E}[R_{\psi}(\tau)] - \mathbb{E}_{\tau \sim \pi_{\psi}}[R_{\psi}(\tau)]\]

其中 $\pi_E$ 是专家策略，$\pi_{\psi}$ 是学习到的策略。

8.5.2 强化学习

问题建模

状态空间：

关节角度和速度
物体位姿
接触力信息
视触觉观测

动作空间：

关节力矩/位置指令
笛卡尔速度指令
阻抗参数

奖励设计：

\[r_t = r_{task} + r_{contact} + r_{smooth} + r_{safety}\]

PPO算法应用

近端策略优化（PPO）的目标函数：

\[L^{CLIP}(\theta) = \mathbb{E}_t[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)]\]

其中 $r_t(\theta) = \frac{\pi_{\theta}(a_t

s_t)}{\pi_{\theta_{old}}(a_t

s_t)}$ 是重要性采样比。

课程学习

逐步增加任务难度：

阶段1：静态物体抓取
阶段2：动态物体跟踪抓取
阶段3：手内重定向
阶段4：工具使用

成功率阈值触发：

\[\text{if } \text{success\_rate} > \tau \text{ then } \text{level} += 1\]

8.5.3 Sim-to-Real转移

域随机化

随机化参数：

物理参数：质量、摩擦、刚度
视觉参数：光照、纹理、噪声
动力学参数：时延、执行误差

def randomize_simulation():
    friction = uniform(0.5, 1.5)
    mass = uniform(0.8, 1.2) * nominal_mass
    delay = uniform(0, 50)  # ms
    noise = normal(0, 0.01)
    return env_with_params(friction, mass, delay, noise)

域适应

使用对抗训练对齐仿真和真实数据分布：

\[\begin{align} L_{task} &= \mathbb{E}_{s \sim p_{sim}}[L_{RL}(\pi(s))] \\ L_{disc} &= \mathbb{E}_{s \sim p_{real}}[\log D(s)] + \mathbb{E}_{s \sim p_{sim}}[\log(1-D(s))] \\ L_{total} &= L_{task} - \lambda L_{disc} \end{align}\]

8.6 工业案例：OpenAI的Rubik’s Cube操作

8.6.1 系统架构

OpenAI在2019年展示的单手解魔方系统是灵巧操作的里程碑。

硬件配置：

Shadow Dexterous Hand（24自由度）
3个RGB相机用于魔方状态估计
PhaseSpace动捕系统追踪魔方位姿

控制架构：

视觉感知 → 状态估计 → 高层规划 → 低层控制
    ↓          ↓           ↓           ↓
魔方识别   位姿跟踪   Kociemba算法  关节控制

8.6.2 关键技术

自动域随机化（ADR）

动态调整随机化范围：

if success_rate > threshold_upper:
    increase_randomization_range()
elif success_rate < threshold_lower:
    decrease_randomization_range()

随机化维度：

魔方尺寸：54-60mm
表面摩擦：0.5-1.5
重力方向：±30°
执行噪声：±15%

分层控制策略

高层策略：输出目标魔方朝向 低层策略：执行单个旋转动作

训练策略：

预训练低层策略完成基本旋转
固定低层，训练高层规划
联合微调

8.6.3 性能指标

成功率：60%（从随机初始状态）
平均解决时间：4分钟
最大连续操作：50次旋转
泛化能力：适应不同尺寸、重量的魔方

关键创新：

大规模并行仿真（6144个并行环境）
内存高效的PPO实现
渐进式域随机化

8.7 高级话题：基于扩散模型的灵巧操作生成

8.7.1 扩散模型基础

扩散模型通过学习数据分布的逆扩散过程生成高质量轨迹。

前向过程（加噪）：

\[q(\mathbf{x}_t|\mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1-\beta_t}\mathbf{x}_{t-1}, \beta_t\mathbf{I})\]

逆向过程（去噪）：

\[p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \mu_{\theta}(\mathbf{x}_t, t), \Sigma_{\theta}(\mathbf{x}_t, t))\]

8.7.2 条件轨迹生成

给定任务描述 $\mathbf{c}$（如目标位姿、语言指令），生成操作轨迹：

\[p(\tau|\mathbf{c}) = \int p(\tau|\mathbf{x}_0)p(\mathbf{x}_0|\mathbf{c})d\mathbf{x}_0\]

网络架构：

任务编码器：
  语言/图像 → Transformer → 任务嵌入

轨迹去噪器：
  [噪声轨迹, 任务嵌入, 时间步] → U-Net → 预测噪声

输出：
  去噪后的关节轨迹

8.7.3 接触感知扩散

在扩散过程中引入物理约束：

\[\mathbf{x}_{t-1} = \text{Denoise}(\mathbf{x}_t) + \lambda\nabla_{\mathbf{x}}C(\mathbf{x}_t)\]

其中 $C(\mathbf{x})$ 是约束满足度（如接触保持、避障）。

训练损失：

\[L = ||\epsilon - \epsilon_{\theta}(\mathbf{x}_t, t, \mathbf{c})||^2 + \lambda_{physics}L_{constraints}\]

8.7.4 实时推理优化

确定性采样

使用DDIM（Denoising Diffusion Implicit Models）加速：

\[\mathbf{x}_{t-1} = \sqrt{\alpha_{t-1}}\left(\frac{\mathbf{x}_t - \sqrt{1-\alpha_t}\epsilon_{\theta}}{\sqrt{\alpha_t}}\right) + \sqrt{1-\alpha_{t-1}}\epsilon_{\theta}\]

可以跳过中间步骤，将1000步降至50步。

轨迹优化后处理

生成后使用轨迹优化平滑：

\[\min_{\tau} \sum_t ||\tau_t - \tau_t^{diffusion}||^2 + \lambda_{smooth}||\tau_{t+1} - 2\tau_t + \tau_{t-1}||^2\]

subject to：运动学约束、碰撞避免

8.7.5 应用案例

语言条件操作生成：输入：”旋转物体90度然后放在桌子左边” 输出：完整的操作轨迹序列

多模态条件：结合视觉目标和触觉约束生成抓取策略

风格迁移：学习不同操作风格（快速/谨慎、有力/轻柔）

性能指标：

生成多样性：每个任务可生成100+不同轨迹
成功率：85%+（简单操作任务）
推理时间：<100ms（使用加速技术）

本章小结

本章系统介绍了灵巧手的控制算法与抓取规划技术：

核心概念：

分层控制架构：从关节级PID到任务级规划的多层次控制
柔顺交互：阻抗/导纳控制实现安全的物理交互
抓取理论：力闭合、质量度量、抓取图等基础概念
操作规划：重抓取、手内操作、操作原语的设计与实现
学习方法：从模仿学习到强化学习的数据驱动方法

关键技术要点：

雅可比伪逆处理运动学奇异性
阻抗控制的稳定性分析与参数调节
抓取质量的定量评估方法
Sim-to-Real的域随机化技术
扩散模型在轨迹生成中的应用

实践指导：

底层控制器需要高频率（>1kHz）更新
阻抗参数应根据任务动态调整
抓取规划要考虑执行的鲁棒性
强化学习需要大量仿真训练
扩散模型适合生成复杂操作轨迹

通过本章学习，读者应能够：

设计和实现多层次的灵巧手控制系统
根据任务需求选择合适的控制策略
评估和优化抓取配置
应用现代机器学习方法提升操作能力
理解前沿技术如扩散模型的应用潜力

下一章将探讨系统集成与实际应用，将这些算法落地到真实的灵巧手系统中。

练习题

基础题

8.1 PID参数调节 一个单关节系统的传递函数为 $G(s) = \frac{1}{s^2 + 2s + 1}$，设计PID控制器使闭环系统的超调量小于10%，调节时间小于2秒。

提示

使用根轨迹法或频域法设计，考虑相位裕度与增益裕度的关系。

答案

使用Ziegler-Nichols方法或根轨迹设计： - $K_p = 2.5$：提供基本的跟踪能力 - $K_i = 0.5$：消除稳态误差 - $K_d = 1.2$：提高系统阻尼，减少超调闭环传递函数： $$T(s) = \frac{K_p + K_i/s + K_d s}{s^2 + (2+K_d)s + (1+K_p) + K_i/s}$$ 验证：超调量约8%，调节时间1.8秒，满足要求。

8.2 雅可比矩阵计算 对于平面2R机械臂，连杆长度为 $l_1 = l_2 = 0.5m$，关节角度 $q_1 = 30°$，$q_2 = 45°$，计算末端执行器的雅可比矩阵和可操作度。

提示

先写出正运动学方程，然后对关节角度求偏导。

答案

正运动学： $$x = l_1\cos(q_1) + l_2\cos(q_1+q_2)$$ $$y = l_1\sin(q_1) + l_2\sin(q_1+q_2)$$ 雅可比矩阵： $$\mathbf{J} = \begin{bmatrix} -l_1\sin(q_1) - l_2\sin(q_1+q_2) & -l_2\sin(q_1+q_2) \\ l_1\cos(q_1) + l_2\cos(q_1+q_2) & l_2\cos(q_1+q_2) \end{bmatrix}$$ 代入数值： $$\mathbf{J} = \begin{bmatrix} -0.604 & -0.354 \\ 0.787 & 0.354 \end{bmatrix}$$ 可操作度： $$w = \sqrt{\det(\mathbf{J}\mathbf{J}^T)} = 0.177$$

8.3 阻抗控制参数选择 设计一个阻抗控制器，使机械手在自由空间快速运动（低阻抗），接触时保持 $F = 10N$ 的接触力（高刚度）。给出刚度矩阵 $\mathbf{K}_d$ 的切换策略。

提示

考虑接触检测和平滑过渡。

答案

切换策略： 1. 自由空间：$\mathbf{K}_d = \text{diag}(100, 100, 100)$ N/m 2. 接触状态：$\mathbf{K}_d = \text{diag}(1000, 1000, 1000)$ N/m 平滑过渡： $$\mathbf{K}_d(t) = \mathbf{K}_{free} + \sigma(F_{contact})(\mathbf{K}_{contact} - \mathbf{K}_{free})$$ 其中 $\sigma(F) = \frac{1}{1 + e^{-10(F-F_{threshold})}}$ 是sigmoid函数。接触力控制： $$F_d = \mathbf{K}_d \Delta x$$ $$\Delta x = F_d / K_d = 10/1000 = 0.01m$$

8.4 抓取质量评估 三指抓取一个半径 $r = 5cm$ 的圆柱体，接触点均匀分布在圆周上，摩擦系数 $\mu = 0.5$。计算该抓取的力闭合性和Q1质量度量。

提示

构建抓取矩阵，检查原点是否在摩擦锥张成的凸包内。

答案

接触点位置（120°间隔）： - $p_1 = (r, 0)$，$p_2 = (-r/2, r\sqrt{3}/2)$，$p_3 = (-r/2, -r\sqrt{3}/2)$ 抓取矩阵（平面情况）： $$\mathbf{G} = \begin{bmatrix} \mathbf{n}_1 & \mathbf{t}_1 & \mathbf{n}_2 & \mathbf{t}_2 & \mathbf{n}_3 & \mathbf{t}_3 \\ \mathbf{p}_1 \times \mathbf{n}_1 & \mathbf{p}_1 \times \mathbf{t}_1 & ... \end{bmatrix}$$ 力闭合检验：rank($\mathbf{G}$) = 3（平面），原点在凸包内部。 Q1度量：摩擦锥约束下的最小扳手约为 $Q_1 = 0.289$（需要线性规划求解）。

挑战题

8.5 多指协调控制设计 设计一个三指灵巧手的协调控制器，实现对球形物体的操作。要求：

保持稳定抓取（力闭合）
实现物体绕垂直轴旋转90°
考虑接触点的滑动约束

提示

使用虚拟连杆方法，将问题转化为约束优化。

答案

控制策略设计： 1. **约束formulation**： - 力平衡：$\sum \mathbf{f}_i = \mathbf{0}$，$\sum \mathbf{p}_i \times \mathbf{f}_i = \boldsymbol{\tau}_d$ - 摩擦锥：$||\mathbf{f}_{t,i}|| \leq \mu |f_{n,i}|$ - 接触保持：$f_{n,i} > f_{min}$ 2. **优化问题**： $$\min_{\mathbf{f}} \sum_i ||\mathbf{f}_i||^2 + \lambda ||\boldsymbol{\tau} - \boldsymbol{\tau}_d||^2$$ 3. **轨迹生成**： - 旋转轨迹：$\theta(t) = \frac{\pi}{2} \cdot (1 - \cos(\pi t/T))/2$ - 接触点速度：$\mathbf{v}_i = \boldsymbol{\omega} \times \mathbf{r}_i$ 4. **控制律**： $$\boldsymbol{\tau}_{joint} = \mathbf{J}^T\mathbf{f}_{opt} + \mathbf{K}_p(\mathbf{q}_d - \mathbf{q})$$ 实现关键：使用二次规划（QP）实时求解最优接触力分配。

8.6 强化学习训练策略 使用PPO算法训练一个灵巧手完成”瓶盖拧开”任务。设计：

状态空间和动作空间
奖励函数
课程学习策略

提示

分解任务为抓取、对齐、旋转三个阶段。

答案

**状态空间**（dim=48）： - 关节角度和速度：24维 - 瓶盖位姿：7维（位置+四元数） - 接触力：15维（5指×3轴） - 瓶盖旋转进度：2维（角度+角速度） **动作空间**（dim=20）： - 关节位置增量：20维 - 范围：[-0.1, 0.1] rad **奖励函数**： ```python r_total = w1 * r_grasp + w2 * r_align + w3 * r_rotate + w4 * r_success r_grasp = -||hand_center - cap_center|| r_align = cos(angle(hand_axis, cap_axis)) r_rotate = angular_velocity * correct_direction r_success = 100 * is_opened ``` **课程设计**： 1. Level 1：瓶盖已松动，只需小角度旋转 2. Level 2：标准拧紧状态 3. Level 3：加入位置偏差 4. Level 4：随机初始抓取位置 **训练技巧**： - 使用hindsight experience replay增加成功样本 - 动作空间使用残差学习（相对于PD控制器） - 奖励shaping避免局部最优

8.7 扩散模型轨迹生成 实现一个条件扩散模型，根据语言描述生成操作轨迹。例如输入”轻柔地拿起杯子并倒水”，输出相应的关节轨迹。

提示

使用CLIP编码语言，U-Net去噪，考虑物理约束。

答案

**模型架构**： 1. **语言编码器**： ```python text_embedding = CLIP_encoder(text) task_features = MLP(text_embedding) # 512维 ``` 2. **轨迹去噪网络**： ```python class TrajectoryDiffusion(nn.Module): def forward(self, x_t, t, condition): # x_t: [batch, horizon, joint_dim] time_emb = positional_encoding(t) h = concat([x_t, time_emb, condition]) h = UNet1D(h) # 时序U-Net return predicted_noise ``` 3. **物理约束投影**： ```python def project_constraints(x): x = clip_joint_limits(x) x = smooth_trajectory(x) x = ensure_contact_stability(x) return x ``` **训练过程**： ```python def training_step(trajectory, text): t = random.randint(0, T) noise = torch.randn_like(trajectory) x_t = forward_diffusion(trajectory, noise, t) condition = encode_text(text) pred_noise = model(x_t, t, condition) loss = F.mse_loss(pred_noise, noise) return loss ``` **推理优化**： - DDIM采样：50步而非1000步 - 分段生成长轨迹 - 后处理平滑和约束满足 **评估指标**： - 任务成功率：75% - 轨迹多样性：每个prompt生成10条不同轨迹 - 物理合理性：95%通过碰撞检测

8.8 开放性思考题 讨论如何将大语言模型（LLM）集成到灵巧手控制系统中，实现自然语言指令到复杂操作的端到端执行。考虑以下方面：

任务分解和技能链接
常识推理和安全约束
失败恢复和人机交互

提示

考虑分层架构：LLM→任务规划→技能原语→底层控制。

答案

**系统架构**： 1. **LLM任务理解层**： - 输入：自然语言指令 - 输出：结构化任务描述 - 示例： ``` "帮我泡茶" → [拿起水壶, 倒水入杯, 放茶包, 搅拌] ``` 2. **技能编排层**： ```python skill_library = { 'pick': pick_controller, 'pour': pour_controller, 'stir': stir_controller } def execute_task(task_plan): for step in task_plan: skill = match_skill(step) params = extract_parameters(step) success = skill.execute(params) if not success: recovery_action = LLM_suggest_recovery() ``` 3. **常识约束**： - 物理常识：水往低处流、易碎物轻拿轻放 - 安全约束：避开高温、锐器远离人 - 社交常识：递物品时handle朝向人 4. **失败处理**： - 感知失败原因 - LLM生成恢复策略 - 人机协作请求帮助 5. **实现挑战**： - 实时性vs准确性权衡 - 幻觉问题的处理 - 技能原语的泛化性 **未来方向**： - 多模态LLM直接处理视觉输入 - 持续学习新技能 - 人类反馈的在线适应

常见陷阱与错误

控制器设计陷阱

增益选择错误
- 错误：PID增益设置过高导致振荡
- 正确：从低增益开始，逐步调整，使用Bode图分析稳定裕度
忽略采样频率
- 错误：1kHz控制环用于快速运动
- 正确：关节控制>1kHz，笛卡尔控制>100Hz，确保带宽足够
奇异性处理不当
- 错误：直接求雅可比矩阵逆
- 正确：使用阻尼最小二乘或任务优先级方法

抓取规划误区

过度依赖仿真
- 错误：仿真中完美的抓取直接应用
- 正确：考虑执行误差，增加抓取鲁棒性余量
忽略动态效应
- 错误：静态抓取分析用于快速操作
- 正确：考虑惯性力，动态调整抓取力
抓取点选择不当
- 错误：只考虑几何可达性
- 正确：综合考虑稳定性、可操作度、避障

学习方法陷阱

奖励函数设计缺陷
- 错误：稀疏奖励导致学习困难
- 正确：奖励shaping + 课程学习 + HER
Sim-to-Real gap
- 错误：期望仿真策略直接工作
- 正确：域随机化 + 系统辨识 + 在线适应
数据效率低下
- 错误：从零开始学习所有技能
- 正确：预训练 + 迁移学习 + 技能复用

系统集成问题

通信延迟忽视
- 错误：假设零延迟通信
- 正确：预测控制 + 延迟补偿
安全约束缺失
- 错误：无限制的力/速度输出
- 正确：多层安全机制：软件限制 + 硬件急停

最佳实践检查清单

控制系统设计

控制频率合理：关节控制>1kHz，规划<100Hz
增益调度完备：不同工作点的增益表
稳定性验证：Lyapunov分析或频域分析
鲁棒性测试：参数摄动下的性能
故障处理：传感器失效的降级策略

抓取规划实施

多样性采样：生成足够的抓取候选
质量评估：使用多个质量指标
执行验证：碰撞检测和可达性检查
在线调整：基于力反馈的抓取优化
失败恢复：重抓取策略准备

学习系统部署

仿真验证：大规模并行测试
安全边界：动作空间限制
增量部署：从简单任务逐步扩展
性能监控：成功率、效率指标跟踪
持续优化：在线数据收集和模型更新

代码实现规范

模块化设计：控制、规划、感知分离
实时性保证：关键路径优化
异常处理：完善的错误恢复机制
日志记录：调试和性能分析数据
单元测试：核心算法的测试覆盖

实验验证要求

基准测试：标准数据集评估
消融实验：各组件贡献分析
鲁棒性实验：噪声和干扰测试
泛化测试：新物体和任务
长期稳定性：连续运行测试