下面是教科书《具身多模态对话系统设计:从表情到社交》的目录大纲(Chapter 列表 + 每章详细 Section 列表)。结构按“从基础→感知→融合→对话与规划→具身表达→空间智能→‘聪明感’→数据评测与工程→应用与前沿”的学习路径组织。


Part I 导论与总体设计

Chapter 1 具身多模态对话:定义、边界与目标

1.1 术语与概念:具身/多模态/对话/接地 1.2 典型场景与任务谱系(家居、服务、教育、医护、公共空间) 1.3 产品与研究目标:可用性、可信赖、愉悦度、社会适配 1.4 能力地图:感知—理解—记忆—决策—表达—行动 1.5 技术演进:规则系统→统计学习→大模型与工具调用→边云协同 1.6 本书结构与推荐阅读路径

Chapter 2 设计原则与人机交互(HRI)基础

2.1 以用户为中心的需求建模与任务故事板 2.2 社会存在感、拟人化与信任建立 2.3 交互节:turn‑taking、backchannel、barge‑in 2.4 主动性与控制权:建议而非打扰 2.5 包容性与可达性(多语言/方言、障碍友好) 2.6 伦理基线:透明、可撤回、最小化收集

Chapter 3 系统总体架构与“快/慢环”

3.1 分层视角:感知→理解→世界/用户模型→对话/规划→表达 3.2 快环(安全/时敏)与慢环(推理/规划)的职责与接口 3.3 工具与记忆:检索、可插拔技能、外部 API/设备控制 3.4 事件总线与时间同步(时钟、戳、队列) 3.5 可解释日志、遥测与审计 3.6 失败模式、回退策略与体验降级


Part II 感知与上下文构建

Chapter 4 语音感知与健壮性

4.1 多麦阵列、波束形成与回声消除 4.2 语音活动检测(VAD)与打断检测 4.3 说话人分离(diarization)与声源定位(DoA) 4.4 关键词唤醒与误触防御 4.5 多语/口音/远场鲁棒 ASR 策略(流式/增量) 4.6 端到端时延预算与分段/增量转写

Chapter 5 视觉感知与人/物识别

5.1 相机/光学/同步与曝光策略 5.2 人体/人脸/手部/姿态与 re‑id 5.3 物体检测、语义/实例分割、属性识别 5.4 多目标跟踪与稳定 Object‑ID(跨遮挡/跨帧) 5.5 视线/手势/动作事件检测 5.6 隐私友好的视觉处理(区域打码、边端裁剪)

Chapter 6 空间定位与建图

6.1 轮速计/IMU/VIO 融合 6.2 SLAM:前端/后端/回环与重定位 6.3 局部/全局坐标与地图管理 6.4 动态场景下的鲁棒定位 6.5 语义地图与可交互对象建模 6.6 置信度与定位不确定性表达

Chapter 7 环境与情境感知

7.1 环境传感(温湿度、CO₂、光照、噪声) 7.2 设备/网络/蓝牙/近场信标与在场检测 7.3 日程/地理围栏/空间占用感知 7.4 场景变化与异常检测 7.5 任务相关上下文拼接与缓存 7.6 数据最小化与边缘预处理


Part III 表示与融合

Chapter 8 多模态表征与对齐

8.1 文本/语音/视觉/空间的统一嵌入 8.2 时间对齐与帧级融合(早/中/晚融合) 8.3 语义接地:从词到对象与动作 8.4 跨模态检索与注意力路由 8.5 学习范式:监督/自监督/指令调优 8.6 评估:对齐误差与接地成功率

Chapter 9 说话人与身份:动态 ID 映射

9.1 声纹嵌入与校准(注册/更新/漂移) 9.2 人脸/体态/服饰等视觉证据 9.3 Identity Graph:多证据融合与边权 9.4 合并/拆分/冲突解决与置信度 9.5 跨设备/跨房间的连续身份与会话延续 9.6 隐私、同意与本地化存储策略

Chapter 10 用户模型:偏好、情绪与历史

10.1 长期档案与短期会话状态 10.2 情绪/参与度估计(声学/视觉/语义) 10.3 偏好学习与个性化策略 10.4 多人场景的优先级与公平性 10.5 冷启动、遗忘与重置 10.6 触达边界:不打扰与尊重


Part IV 语言理解、对话与规划

Chapter 11 语言理解与指令接地

11.1 意图/槽位 vs 生成式理解 11.2 模糊/省略/口语化处理 11.3 指代消解(this/that/here/there) 11.4 时序/条件/数量词解析 11.5 可操作语义图(Action/Task Graph) 11.6 澄清与确认策略

Chapter 12 多方对话与轮次管理

12.1 轮次预测与话轮取得 12.2 打断(barge‑in)与重规划 12.3 说话人指向与称呼分配 12.4 backchannel 与“在场感”表达 12.5 群体对话的公平与冲突调解 12.6 语音+视觉的发言权识别

Chapter 13 对话管理与策略学习

13.1 显式状态跟踪与记忆接口 13.2 规则/策略梯度/行为树/LLM‑Policy 13.3 目标分解与子任务管理 13.4 错误恢复与重试 13.5 可解释策略与理由生成 13.6 A/B、离线评估与仿真验证

Chapter 14 任务规划与工具调用

14.1 规划范式:BT/POMDP/分层规划 14.2 LLM‑to‑Tools/函数调用/外部 API 编排 14.3 进度汇报与人类在环 14.4 监控与守护:超时/回滚/幂等 14.5 物理执行与虚拟服务的协同 14.6 成本/能耗/优先级联合调度


Part V 具身表达与社交

Chapter 15 语音合成与韵律表达

15.1 多风格/多情绪 TTS 与低延迟 15.2 韵律控制:停顿、重音、语速 15.3 说话人拟合与个性化 15.4 Viseme 与口型/表情同步 15.5 不确定性与语气设计 15.6 音频安全与内容标记

Chapter 16 表情、凝视与身体语言

16.1 内部状态→外显信号的映射 16.2 眼神、点头、微表情的时序设计 16.3 手势与姿态的语义约定 16.4 空间指向与共同注意 16.5 过度拟人与“恐怖谷”控制 16.6 跨文化的非言语差异

Chapter 17 社交规范与人机礼仪

17.1 称呼、礼貌与致谢/道歉 17.2 个人空间(proxemics)与站位 17.3 敏感话题与边界 17.4 幽默、闲聊与共情 17.5 儿童/老人/障碍用户的专门设计 17.6 群体社交规范与公共场景


Part VI 空间智能与操作

Chapter 18 空间语言与视觉对齐

18.1 从语言到空间关系(左/右/前/后/近/远) 18.2 参照系:自/对象/世界坐标 18.3 视觉跟踪与指代稳定 18.4 视点变化与路径描述理解 18.5 语言‑地图‑对象三元对齐 18.6 澄清式导航对话

Chapter 19 操作、导航与人类感知协同

19.1 导航:全局/局部规划与人类感知避让 19.2 操作:抓取、放置与力觉控制 19.3 任务级动作脚本与可恢复点 19.4 感知—行动闭环与失败重试 19.5 安全停机与优雅降级 19.6 真实世界约束(狭窄、光照、反射、杂乱)


Part VII “聪明感”的打造

Chapter 20 自我感知与能力模型

20.1 电量/温度/姿态/网络等内部状态 20.2 自知识(能/不能/代价)与边界表达 20.3 不确定性度量与对话呈现 20.4 定位置信与求助策略 20.5 期望管理与承诺控制 20.6 从“会做”到“会说明为什么做”

Chapter 21 记忆、人格与主动性

21.1 语义/情节/程序性记忆分层 21.2 检索与遗忘:新鲜度、隐私与合规 21.3 人格设定与一致性维护 21.4 主动触发:情境、阈值与抑制 21.5 习惯形成与长期陪伴 21.6 滥用预防与成瘾风险管理

Chapter 22 不确定性、风险与安全工程

22.1 风险分类:物理/隐私/内容/社会 22.2 危险感知与情境升级 22.3 冗余与 fail‑safe:E‑stop、看门狗、双通道 22.4 行动与内容的安全边界 22.5 红队/对抗/鲁棒性测试 22.6 责任分配与审计追踪


Part VIII 数据、评测与系统工程

Chapter 23 数据与标注

23.1 采集规范与知情同意 23.2 多模态校准与时间戳一致性 23.3 标注体系:对话、情绪、指代、动作 23.4 合成数据与仿真(domain randomization) 23.5 数据治理:版本、质量、偏见审计 23.6 线上反馈→离线训练的数据闭环

Chapter 24 评测方法与用户研究

24.1 自动指标:WER/DER/定位误差/延迟/接地率 24.2 任务成功率与路径最优性 24.3 主观量表:SUS、RoSAS、NASA‑TLX、信任度 24.4 多人对话与社交评测协议 24.5 现场实验与 Wizard‑of‑Oz 24.6 长期纵向研究与留存/流失分析

Chapter 25 低延迟架构与可靠性

25.1 流式管线、背压与调度 25.2 边云协同与算力分配 25.3 缓存、剪枝与近似推理 25.4 观测性:日志/指标/分布式追踪 25.5 混沌工程与灾备演练 25.6 成本与能耗优化

Chapter 26 隐私、安全与合规运营

26.1 数据最小化与端侧加密 26.2 身份与权限:RBAC/ABAC/细粒度授权 26.3 风险评估与威胁建模(DPIA 等) 26.4 透明度:可解释、可下载、可删除 26.5 内容管理:未成年人/敏感群体保护 26.6 跨境部署与法规导航


Part IX 应用与前沿

Chapter 27 家庭与陪护

27.1 家务与看护任务建模 27.2 情绪陪伴与隔代沟通 27.3 与儿童/宠物的安全互动 27.4 误报/漏报成本权衡 27.5 空间可操作性与家居改造 27.6 成功/失败案例复盘

Chapter 28 医疗、教育与公共服务

28.1 医疗场景中的身份/隐私边界 28.2 教学对话与评估协作 28.3 公共空间礼仪与人流管理 28.4 无障碍与可达性最佳实践 28.5 合作式监督与责任分担 28.6 价值与影响评估

Chapter 29 商业与零售服务

29.1 导购与空间导航 29.2 知识检索与售后支持 29.3 多人队列与优先级管理 29.4 广告/推荐的伦理边界 29.5 绩效度量与转化闭环 29.6 运营与维护手册

Chapter 30 研究前沿与未来趋势

30.1 大模型具身化与世界模型 30.2 社会导航与群体智能 30.3 具身 self‑play 与模拟社会 30.4 可靠自主与法规共进 30.5 开放挑战:接地、常识与长期记忆 30.6 研究工具链与开放资源


附录

A. 术语与符号表 B. 设计清单(Checklist):从原型到量产的 100 项核对 C. 开源框架与数据集索引(ROS2、WebRTC、仿真器等) D. 实验伦理与同意书模板 E. 评测脚本与可视化仪表板样例