目标:从“多模态模型 + 工具调用 + 协作协议 + 评测与蒸馏”出发,系统讲清楚如何设计、实现、评估并部署可落地的多模态智能体(Multi-modal Agent)。
文件组织:
index.md+chapter1.md+chapter2.md+ …(每章独立可阅读;案例章可选读)
1.4 常见应用形态
2.1 多模态数据形态与难点
2.3 多模态“可读化”:从原始输入到可推理表示
3.2 Tool Call 基础模式
3.3 工具路由(Tool Routing)
3.4 失败恢复与重试策略
3.6 常见工具族谱(按能力分层)
4.2 典型范式
5.2 RAG 的正确打开方式(尤其在多模态场景)
6.2 Handoff 的类型
6.3 上下文打包:handoff packet 设计
7.2 消息结构(概念层)
7.3 多模态 payload 的组织
8.2 常见组织结构
10.2 Trace 的最小字段集(建议 schema)
10.3 用于蒸馏的 trace:从“过程数据”到“训练样本”
10.4 常见 Benchmark 版图(按能力分层)
每个案例章遵循统一模板:目标与边界 → 架构 → 工具与数据 → 关键算法/策略 → 评测 → 工程化 → 展练习
11.3 多模态 PDF 处理流水线
12.4 生成补丁的策略