mm_agent_tutorial

基于多模态理解生成模型的智能体构建教程(目录)

目标:从“多模态模型 + 工具调用 + 协作协议 + 评测与蒸馏”出发,系统讲清楚如何设计、实现、评估并部署可落地的多模态智能体(Multi-modal Agent)。

文件组织:index.md + chapter1.md + chapter2.md + …(每章独立可阅读;案例章可选读)


阅读路线


第一部分:多模态 Agent 通用方法论(Ch1–Ch10)

第 1 章 多模态智能体概览


第 2 章 多模态输入输出与上下文管理


第 3 章 Tool Call:工具调用设计与编排


第 4 章 Agent Loop:规划-执行-反思的闭环


第 5 章 记忆与知识:RAG、多模态检索与状态管理


第 6 章 Agent Handoff:任务移交与协作协议


第 7 章 OpenAI Harmony 格式与多模态消息协议


第 8 章 Multi-Agent:从单体到群体协作


第 9 章 与仿真系统互动:闭环、采样与安全


第 10 章 Trace 构造、蒸馏与 Benchmark 评测体系


第二部分:典型多模态智能体案例(Ch11–Ch17)

每个案例章遵循统一模板:目标与边界 → 架构 → 工具与数据 → 关键算法/策略 → 评测 → 工程化 → 展练习

第 11 章 DeepResearch 智能体:多模态研究与长文档 PDF


第 12 章 Coding Agent:从仓库理解到可合并 PR


第 13 章 自动驾驶 VLA Agent:从感知到闭环决策


第 14 章 座舱多模对话机器人:可控、可靠、可解释


第 15 章 GeoGuessr / 地理定位 Agent:从一张图到一个世界坐标


第 16 章 机器人操作与具身 VLA Agent:从语言到动作原语


第 17 章 文档/票据/表格多模 RPA Agent:企业流程自动化


第三部分:落地与进阶(Ch18–Ch19)

第 18 章 生产级工程化:可观测、可回归、可运营


第 19 章 安全、对齐与红队:把风险变成可测试项


附录(可直接复制使用的模板与清单)

附录 A Harmony/消息协议模板速查


附录 B Tool Schema Cookbook


附录 C Trace Schema 与蒸馏数据构建


附录 D Benchmark 清单与自建评测指南