Untitled

下面是教科书《具身多模态对话系统设计：从表情到社交》的目录大纲（Chapter 列表 + 每章详细 Section 列表）。结构按“从基础→感知→融合→对话与规划→具身表达→空间智能→‘聪明感’→数据评测与工程→应用与前沿”的学习路径组织。

Part I 导论与总体设计

Chapter 1 具身多模态对话：定义、边界与目标

1.1 术语与概念：具身/多模态/对话/接地 1.2 典型场景与任务谱系（家居、服务、教育、医护、公共空间） 1.3 产品与研究目标：可用性、可信赖、愉悦度、社会适配 1.4 能力地图：感知—理解—记忆—决策—表达—行动 1.5 技术演进：规则系统→统计学习→大模型与工具调用→边云协同 1.6 本书结构与推荐阅读路径

Chapter 2 设计原则与人机交互(HRI)基础

2.1 以用户为中心的需求建模与任务故事板 2.2 社会存在感、拟人化与信任建立 2.3 交互节：turn‑taking、backchannel、barge‑in 2.4 主动性与控制权：建议而非打扰 2.5 包容性与可达性（多语言/方言、障碍友好） 2.6 伦理基线：透明、可撤回、最小化收集

Chapter 3 系统总体架构与“快/慢环”

3.1 分层视角：感知→理解→世界/用户模型→对话/规划→表达 3.2 快环（安全/时敏）与慢环（推理/规划）的职责与接口 3.3 工具与记忆：检索、可插拔技能、外部 API/设备控制 3.4 事件总线与时间同步（时钟、戳、队列） 3.5 可解释日志、遥测与审计 3.6 失败模式、回退策略与体验降级

Part II 感知与上下文构建

Chapter 4 语音感知与健壮性

4.1 多麦阵列、波束形成与回声消除 4.2 语音活动检测(VAD)与打断检测 4.3 说话人分离(diarization)与声源定位(DoA) 4.4 关键词唤醒与误触防御 4.5 多语/口音/远场鲁棒 ASR 策略（流式/增量） 4.6 端到端时延预算与分段/增量转写

Chapter 5 视觉感知与人/物识别

5.1 相机/光学/同步与曝光策略 5.2 人体/人脸/手部/姿态与 re‑id 5.3 物体检测、语义/实例分割、属性识别 5.4 多目标跟踪与稳定 Object‑ID（跨遮挡/跨帧） 5.5 视线/手势/动作事件检测 5.6 隐私友好的视觉处理（区域打码、边端裁剪）

Chapter 6 空间定位与建图

6.1 轮速计/IMU/VIO 融合 6.2 SLAM：前端/后端/回环与重定位 6.3 局部/全局坐标与地图管理 6.4 动态场景下的鲁棒定位 6.5 语义地图与可交互对象建模 6.6 置信度与定位不确定性表达

Chapter 7 环境与情境感知

7.1 环境传感（温湿度、CO₂、光照、噪声） 7.2 设备/网络/蓝牙/近场信标与在场检测 7.3 日程/地理围栏/空间占用感知 7.4 场景变化与异常检测 7.5 任务相关上下文拼接与缓存 7.6 数据最小化与边缘预处理

Part III 表示与融合

Chapter 8 多模态表征与对齐

8.1 文本/语音/视觉/空间的统一嵌入 8.2 时间对齐与帧级融合（早/中/晚融合） 8.3 语义接地：从词到对象与动作 8.4 跨模态检索与注意力路由 8.5 学习范式：监督/自监督/指令调优 8.6 评估：对齐误差与接地成功率

Chapter 9 说话人与身份：动态 ID 映射

9.1 声纹嵌入与校准（注册/更新/漂移） 9.2 人脸/体态/服饰等视觉证据 9.3 Identity Graph：多证据融合与边权 9.4 合并/拆分/冲突解决与置信度 9.5 跨设备/跨房间的连续身份与会话延续 9.6 隐私、同意与本地化存储策略

Chapter 10 用户模型：偏好、情绪与历史

10.1 长期档案与短期会话状态 10.2 情绪/参与度估计（声学/视觉/语义） 10.3 偏好学习与个性化策略 10.4 多人场景的优先级与公平性 10.5 冷启动、遗忘与重置 10.6 触达边界：不打扰与尊重

Part IV 语言理解、对话与规划

Chapter 11 语言理解与指令接地

11.1 意图/槽位 vs 生成式理解 11.2 模糊/省略/口语化处理 11.3 指代消解（this/that/here/there） 11.4 时序/条件/数量词解析 11.5 可操作语义图（Action/Task Graph） 11.6 澄清与确认策略

Chapter 12 多方对话与轮次管理

12.1 轮次预测与话轮取得 12.2 打断(barge‑in)与重规划 12.3 说话人指向与称呼分配 12.4 backchannel 与“在场感”表达 12.5 群体对话的公平与冲突调解 12.6 语音+视觉的发言权识别

Chapter 13 对话管理与策略学习

13.1 显式状态跟踪与记忆接口 13.2 规则/策略梯度/行为树/LLM‑Policy 13.3 目标分解与子任务管理 13.4 错误恢复与重试 13.5 可解释策略与理由生成 13.6 A/B、离线评估与仿真验证

Chapter 14 任务规划与工具调用

14.1 规划范式：BT/POMDP/分层规划 14.2 LLM‑to‑Tools/函数调用/外部 API 编排 14.3 进度汇报与人类在环 14.4 监控与守护：超时/回滚/幂等 14.5 物理执行与虚拟服务的协同 14.6 成本/能耗/优先级联合调度

Part V 具身表达与社交

Chapter 15 语音合成与韵律表达

15.1 多风格/多情绪 TTS 与低延迟 15.2 韵律控制：停顿、重音、语速 15.3 说话人拟合与个性化 15.4 Viseme 与口型/表情同步 15.5 不确定性与语气设计 15.6 音频安全与内容标记

Chapter 16 表情、凝视与身体语言

16.1 内部状态→外显信号的映射 16.2 眼神、点头、微表情的时序设计 16.3 手势与姿态的语义约定 16.4 空间指向与共同注意 16.5 过度拟人与“恐怖谷”控制 16.6 跨文化的非言语差异

Chapter 17 社交规范与人机礼仪

17.1 称呼、礼貌与致谢/道歉 17.2 个人空间（proxemics）与站位 17.3 敏感话题与边界 17.4 幽默、闲聊与共情 17.5 儿童/老人/障碍用户的专门设计 17.6 群体社交规范与公共场景

Part VI 空间智能与操作

Chapter 18 空间语言与视觉对齐

18.1 从语言到空间关系（左/右/前/后/近/远） 18.2 参照系：自/对象/世界坐标 18.3 视觉跟踪与指代稳定 18.4 视点变化与路径描述理解 18.5 语言‑地图‑对象三元对齐 18.6 澄清式导航对话

Chapter 19 操作、导航与人类感知协同

19.1 导航：全局/局部规划与人类感知避让 19.2 操作：抓取、放置与力觉控制 19.3 任务级动作脚本与可恢复点 19.4 感知—行动闭环与失败重试 19.5 安全停机与优雅降级 19.6 真实世界约束（狭窄、光照、反射、杂乱）

Part VII “聪明感”的打造

Chapter 20 自我感知与能力模型

20.1 电量/温度/姿态/网络等内部状态 20.2 自知识（能/不能/代价）与边界表达 20.3 不确定性度量与对话呈现 20.4 定位置信与求助策略 20.5 期望管理与承诺控制 20.6 从“会做”到“会说明为什么做”

Chapter 21 记忆、人格与主动性

21.1 语义/情节/程序性记忆分层 21.2 检索与遗忘：新鲜度、隐私与合规 21.3 人格设定与一致性维护 21.4 主动触发：情境、阈值与抑制 21.5 习惯形成与长期陪伴 21.6 滥用预防与成瘾风险管理

Chapter 22 不确定性、风险与安全工程

22.1 风险分类：物理/隐私/内容/社会 22.2 危险感知与情境升级 22.3 冗余与 fail‑safe：E‑stop、看门狗、双通道 22.4 行动与内容的安全边界 22.5 红队/对抗/鲁棒性测试 22.6 责任分配与审计追踪

Part VIII 数据、评测与系统工程

Chapter 23 数据与标注

23.1 采集规范与知情同意 23.2 多模态校准与时间戳一致性 23.3 标注体系：对话、情绪、指代、动作 23.4 合成数据与仿真（domain randomization） 23.5 数据治理：版本、质量、偏见审计 23.6 线上反馈→离线训练的数据闭环

Chapter 24 评测方法与用户研究

24.1 自动指标：WER/DER/定位误差/延迟/接地率 24.2 任务成功率与路径最优性 24.3 主观量表：SUS、RoSAS、NASA‑TLX、信任度 24.4 多人对话与社交评测协议 24.5 现场实验与 Wizard‑of‑Oz 24.6 长期纵向研究与留存/流失分析

Chapter 25 低延迟架构与可靠性

25.1 流式管线、背压与调度 25.2 边云协同与算力分配 25.3 缓存、剪枝与近似推理 25.4 观测性：日志/指标/分布式追踪 25.5 混沌工程与灾备演练 25.6 成本与能耗优化

Chapter 26 隐私、安全与合规运营

26.1 数据最小化与端侧加密 26.2 身份与权限：RBAC/ABAC/细粒度授权 26.3 风险评估与威胁建模（DPIA 等） 26.4 透明度：可解释、可下载、可删除 26.5 内容管理：未成年人/敏感群体保护 26.6 跨境部署与法规导航

Part IX 应用与前沿

Chapter 27 家庭与陪护

27.1 家务与看护任务建模 27.2 情绪陪伴与隔代沟通 27.3 与儿童/宠物的安全互动 27.4 误报/漏报成本权衡 27.5 空间可操作性与家居改造 27.6 成功/失败案例复盘

Chapter 28 医疗、教育与公共服务

28.1 医疗场景中的身份/隐私边界 28.2 教学对话与评估协作 28.3 公共空间礼仪与人流管理 28.4 无障碍与可达性最佳实践 28.5 合作式监督与责任分担 28.6 价值与影响评估

Chapter 29 商业与零售服务

29.1 导购与空间导航 29.2 知识检索与售后支持 29.3 多人队列与优先级管理 29.4 广告/推荐的伦理边界 29.5 绩效度量与转化闭环 29.6 运营与维护手册

Chapter 30 研究前沿与未来趋势

30.1 大模型具身化与世界模型 30.2 社会导航与群体智能 30.3 具身 self‑play 与模拟社会 30.4 可靠自主与法规共进 30.5 开放挑战：接地、常识与长期记忆 30.6 研究工具链与开放资源

附录

A. 术语与符号表 B. 设计清单（Checklist）：从原型到量产的 100 项核对 C. 开源框架与数据集索引（ROS2、WebRTC、仿真器等） D. 实验伦理与同意书模板 E. 评测脚本与可视化仪表板样例