MLLM 多模理解与生成大模型测评教程（中文）

仓库文件组织：index.md + chapter1.md … chapter16.md
覆盖模态：图像 / 视频 / 语音 / 音乐 / 文字（输入与输出）
测评类型：客观自动化打分 + 主观人评 + 端到端系统评测 + 持续回归（CI）
约定：每一章最后都包含「车舱落地：驾舱一体」专门小节（对话 + RAG/云端fallback + 记忆 + DMS/OMS + 前后排语音 I/O + 中控屏 HTML/UI 控制 + 地图/POI API + …）

统一阅读方式与交付物（全书贯穿）

每章默认输出：
任务定义（输入/输出/约束）
开源数据集/可复现基准建议（能直接跑的优先）
指标与打分器（objective scorer / judge / 人评 rubric）
工程实现参考（OpenCompass / 自建 harness / CI）
Ablation 设计（可控变量、实验矩阵、统计置信区间）
失败分析（error taxonomy、可视化回放、回归门禁）
训练数据问题反查（泄漏/重复/模板记忆/敏感样本）
车舱落地：驾舱一体（章节末固定）

Chapter-by-chapter 详细大纲（index）

第 1 章：测评总览与能力树（chapter1.md）

1.1 MLLM 的“能力”到底指什么：任务视角 vs 系统视角
1.2 多模态输入输出矩阵：I→O（图/视/声/乐/文）组合枚举
1.3 测评分层：模型能力 / 可靠性（低幻觉）/ 体验（多轮）/ 安全 / 成本与时延
1.4 单项评测 vs 端到端评测：何时需要“系统基准”
1.5 评测资产与交付物：Leaderboard、Model Card、Regression Report、Issue Template
1.6 基线与对照：如何选 baseline（开源/商用/自研）与“合理上限”
1.7 车舱落地：驾舱一体（本章要点映射到车载助手能力树）
对话主链路、云端 fallback、离线降级、车控安全边界
DMS/OMS 与对话融合：触发/打断/优先级
多人多麦克风、多扬声器、前后排仲裁与隐私

第 2 章：数据、指标与统计：从“可比”到“可信”（chapter2.md）

2.1 数据集选型原则：覆盖面、难度梯度、许可证、隐私与合规
2.2 数据切分与泄漏防护：train/dev/test、去重、模板污染、近重复检测
2.3 指标设计：Accuracy/EM/F1、WER/CER、mAP、MOS、成功率、成本/时延
2.4 统计显著性：bootstrap、置信区间、功效分析、A/B 判定门槛
2.5 难度分桶：按场景/模态/技能点/噪声强度/时序长度分层汇报
2.6 Judge 风险与对策：LLM-as-a-judge 的偏差、对抗提示、标定集校准
2.7 “及时全面”的测评策略：冒烟集/每日回归集/版本发布全量集
2.8 车舱落地：驾舱一体（车载数据资产的采集、脱敏、授权与回放）
行车/座舱数据如何做隐私分级与脱敏
线上日志回放到离线测评（record-replay）
高风险场景（驾驶中）单独设立更严格门槛

第 3 章：评测平台工程化：统一接口、批量运行、可视化与 CI（chapter3.md）

3.1 仓库结构约定：tasks / datasets / adapters / scorers / reports / dashboards
3.2 模型适配层（Model Adapter）：多模态 I/O、流式输出、函数/工具调用协议
3.3 数据管线：采样、解码（音频/视频）、缓存、去重、版本锁定
3.4 运行器（Runner）：并发、分布式、断点续跑、重试与幂等
3.5 打分器（Scorers）：客观 scorer、judge、混合打分、置信区间计算
3.6 评测框架选型与对接：
OpenCompass（多基准统一跑分、排行榜、配置化）
文本评测 harness（lm-eval 类思路）、多模态扩展策略
GUI/Agent 的仿真执行框架（可复现环境快照）
3.7 报告系统：失败样本回放、聚类归因、对比 diff、可视化仪表盘
3.8 CI 设计：PR 冒烟、Nightly 回归、Release Gate、指标预算（latency/cost）
3.9 Ablation 自动化：变量命名规范、实验矩阵、超参 sweep、结果追溯
3.10 训练数据问题反查工作流：命中样本检索、近似匹配、污染源定位
3.11 车舱落地：驾舱一体（端侧/云侧双栈评测与 OTA 回归门禁）
端侧算力、实时性、离线包体与云端能力差异如何评测
车控/导航/媒体等工具 API 的 mock 与真机回放
OTA 前“驾驶安全关键指标”硬门槛

第 4 章：ASR 测评（语音识别）（chapter4.md）

4.1 任务拆解：短句听写 / 长音频转写 / 流式 ASR / 说话人分离与时间戳
4.2 开源数据集地图（中英 + 噪声/口音/远场）：选择与组合策略
4.3 指标体系：WER/CER、数字/专名、标点与断句、时间戳偏差、RTF
4.4 鲁棒性评测：噪声、混响、回声、重叠语音、code-switch、方言口音
4.5 流式稳定性：partial hypothesis 抖动、延迟-准确率权衡
4.6 错误分析：混淆对（同音/数字）、热词召回、命令词误触发
4.7 Ablation：前端增强、VAD、热词、语言识别、采样率/通道数
4.8 车舱落地：驾舱一体（远场、多麦、回声消除、多人同讲）
前排/后排说话人仲裁与指令归属
导航播报/音乐播放下的 AEC 与 barge-in
驾驶中命令词安全策略（确认/复述/降级）

第 5 章：TTS 测评（语音合成）（chapter5.md）

5.1 任务拆解：普通播报 / 情感/风格 / 多语言 / 音色一致性 / 流式 TTS
5.2 开源语音合成语料选型：音质、覆盖、口音、授权与可商用性检查
5.3 客观指标：可懂度、说话人相似度、韵律相关指标（与局限性）
5.4 主观人评：MOS/MUSHRA 设计、采样策略、听测平台与一致性控制
5.5 破音/瑕疵专项：爆破音、断裂、齿音、喘息、底噪、削波、失真检测流程
5.6 情绪与角色一致性：情绪可控性、情绪漂移、语速/停连/重音
5.7 安全与滥用：音色克隆风险、内容水印/溯源、敏感内容播报策略
5.8 车舱落地：驾舱一体（导航播报、打断、回声、扬声器布局）
前/后排分区播报与隐私（例如后排导航提示）
车辆噪声变化下自适应响度与清晰度
驾驶关键提示的“必达”与冗余策略（音频+屏显）

第 6 章：音频/音乐理解与生成测评（chapter6.md）

6.1 音频理解任务谱系：环境声识别、音频 caption、音频 QA、音频检索
6.2 音乐相关任务：曲风/标签、乐器识别、歌词对齐、音乐 caption/问答
6.3 开源数据集地图：AudioSet、ESC-50、FSD50K、AudioCaps/Clotho、Music 相关集合
6.4 指标：多标签 mAP/F1、caption 指标与人评结合、跨模态检索 Recall@K
6.5 音频/音乐生成（可选）：一致性、结构性、音质与失真、版权风险筛查
6.6 对齐与可解释：音频-文本 grounding（时间段证据）、可视化与回放
6.7 鲁棒性：不同采样率、压缩、远场、混音、多源叠加
6.8 车舱落地：驾舱一体（警笛/鸣笛/车内事件 + 音乐体验）
警笛/鸣笛/碰撞声等关键事件触发对话与 UI 提示
音乐 ducking：对话/导航/乘客说话自动压低
车内“儿童哭闹/异常声”与 OMS 联动

第 7 章：自然图像理解与 OCR（含交通牌、扫码、天气等）（chapter7.md）

7.1 通用图像理解基准：VQA/多学科/图表/数学视觉推理的组合方式
7.2 OCR 与文档理解：场景文字、文档问答、表格/票据、图表问答
7.3 交通标志/指示牌专项：分类、检测、细粒度文本与符号理解
7.4 Signboard OCR：店招、路牌、停车场标识、复杂字体与夜间反光
7.5 商店人流/室内理解：客流计数、排队长度、区域拥挤度与安全提示
7.6 停车扫码/二维码条码：发现→定位→解码→解释（失败兜底）
7.7 天气与道路环境：雨雪雾/夜间/眩光识别（以及不确定性表达）
7.8 Grounding 能力：point/bbox 级定位、引用证据区域、减少视觉幻觉
7.9 图像生成/编辑（可选）：合规评测、人评协议与自动指标（作为扩展）
7.10 车舱落地：驾舱一体（前视/环视/泊车场景与安全边界）
车外视觉输入与对话的“只提示不控制”策略
泊车扫码/停车缴费流程：语音引导 + 中控 UI 操作闭环
天气/路况识别联动导航与驾驶建议（明确不确定性）

第 8 章：视频理解（含人流、事件、时序推理、驾驶相关）（chapter8.md）

8.1 视频任务谱系：视频 QA、事件识别、动作识别、时序推理
8.2 长视频：采样策略、分段记忆、关键帧选择对分数的影响
8.3 时序定位与证据：时间段 grounding（tIoU）、可回放证据链
8.4 人流与行为：商店人流、排队变化、异常事件（跌倒/拥挤）
8.5 驾驶相关视频（可公开数据优先）：路口事件、交通参与者意图、险情描述
8.6 录屏/屏幕视频与真实世界视频的差异：压缩伪影、字幕叠加、UI 元素
8.7 指标：准确率/成功率 + 时延/算力 + 置信区间
8.8 视频生成（可选）：一致性、物理合理性、时序稳定性（扩展）
8.9 车舱落地：驾舱一体（环视/哨兵/泊车/低光雨雾）
哨兵/行车记录：事件摘要与证据回放
泊车场景：行人/车辆靠近告警与 UI 提示优先级
端侧低时延预算：帧率、分辨率、热区裁剪的 ablation

第 9 章：人头/人脸图像与视频理解（AU、Blendshape、DMS/OMS）（chapter9.md）

9.1 任务定义：Action Unit、表情/情绪、头姿、视线、唇动、疲劳分级
9.2 Blendshape/3D 表情：输出空间定义、标注体系与兼容（如 ARKit 风格）
9.3 开源数据集地图：AU/表情/姿态/视线（含多光照与遮挡）
9.4 指标：AU F1、姿态 MAE、视线角误差、连续情绪 CCC、误报/漏报成本
9.5 鲁棒性：墨镜/口罩/遮挡、IR/NIR、夜间、抖动、逆光
9.6 公平性与隐私：人群覆盖、偏差审计、端侧处理、数据保留策略
9.7 Ablation：分辨率、帧率、关键点/3DMM、时序建模、阈值策略
9.8 车舱落地：驾舱一体（DMS/OMS→对话/提示/车控联动）
疲劳/分心触发：对话策略与 UI 提示（不打扰 vs 必达）
后排 OMS：儿童遗留、异常动作、多人身份切换
法规/责任：误报的用户体验与安全权衡

第 10 章：GUI 截屏/录屏理解与操作评测（ScreenSuite 等）（chapter10.md）

10.1 GUI 能力树：看懂（QA）→ 找到（定位）→ 操作（动作序列）→ 复盘（解释）
10.2 数据集与基准：移动端/桌面/Web（含 ScreenSuite、RICO 系列、指令跟随集合）
10.3 任务形式：元素 grounding、表单填写、跨页导航、设置项查找、录屏状态跟踪
10.4 动作空间：坐标点击 vs 语义点击；scroll/type/back；失败恢复动作
10.5 指标：step success、task completion、平均步数、误触率、可复现回放成功率
10.6 工程实现：Playwright/Appium/无头环境、快照冻结、网络与权限 mock
10.7 安全护栏：敏感操作确认、权限弹窗处理、不可逆动作隔离
10.8 车舱落地：驾舱一体（中控屏 HTML/UI 控制 + 语音操作）
语音→UI 操作：驾驶中限制（锁屏/简化交互）
车机多应用：媒体/空调/电话/设置互相切换的鲁棒性
UI 失败兜底：可解释回放 + 引导用户手动完成

第 11 章：文本逻辑性、事实性与低幻觉：客观打分体系（chapter11.md）

11.1 逻辑与推理：数学/常识/多跳推理/指令遵循的基准组合
11.2 中文专项：中文推理、阅读理解、长文本总结的客观评测设计
11.3 低幻觉：事实性、引用一致性、拒答能力、过度自信检测
11.4 打分方法：EM/F1、pairwise、rubric judge、混合评测（自动+抽样人审）
11.5 事实核验流水线：claim 抽取→检索→NLI→聚合评分（可解释证据）
11.6 不确定性与校准：ECE/选择性回答、阈值策略与“宁可不答”
11.7 长上下文稳定性：信息遗忘、指令漂移、多轮不崩溃客观 proxy
11.8 车舱落地：驾舱一体（高风险问答与“可靠拒答”）
车主手册/保养建议类：必须引用证据或明确不确定
驾驶中对话：避免冗长、避免分心、明确边界（不替代安全判断）
云端 fallback 与离线知识的冲突处理

第 12 章：RAG 评测：检索与生成的端到端客观评分（chapter12.md）

12.1 RAG 拆解：索引→召回→重排→生成→引用→拒答
12.2 开源评测集合与自建领域库：通用 QA + 车载领域文档（手册/导航/FAQ）
12.3 检索指标：Recall@K、MRR、nDCG、覆盖率分桶（短问/长问/实体问）
12.4 生成指标：faithfulness、context precision/recall、citation accuracy、答案可用性
12.5 Prompt 注入与对抗：文档注入、恶意网页片段、工具输出污染
12.6 时延与成本：embedding/检索/生成分段计时，端侧 vs 云侧预算
12.7 Ablation：chunking、overlap、embedding、reranker、query rewrite、引用格式
12.8 训练数据反查：引用命中异常、记忆化回答、近重复片段定位
12.9 车舱落地：驾舱一体（对话 + 车主手册 + 地图/POI + 云端交互）
离线 RAG（车主手册）与在线 RAG（POI/路况）的融合
云端 fallback：网络抖动下的用户体验与一致性
记忆（偏好/常用 POI）与隐私：存储策略与可解释

第 13 章：文字 + 语音 Role-play 的主观人评（CharacterEval 等）（chapter13.md）

13.1 为什么必须做人评：体验类能力（情绪、陪伴、风格一致）无法完全客观化
13.2 评测协议：CharacterEval/多角色脚本、chitchat 场景库、压力测试用例库
13.3 评分维度：OOC、角色一致性、情绪贴合、礼貌与边界、多轮不崩溃
13.4 人评流程工程：双盲、抽样、仲裁、标注员校准、IAA（一致性）
13.5 语音 Role-play：轮次切换、打断、语速/语气、情绪表达与可懂度
13.6 风险场景：过度拟人、依赖诱导、敏感话题、越权承诺
13.7 A/B 实验与线上灰度：满意度、留存、投诉率与定性分析结合
13.8 车舱落地：驾舱一体（司机/乘客分权 + 多人多轮对话）
司机优先：打断策略、简洁回答、避免分心
前后排多角色：谁在说话、对谁回应、隐私隔离
情绪安抚与安全提示：不越权、不误导、可控语气

第 14 章：代码生成能力评测（作为逻辑性与 Agent 能力 Proxy）（chapter14.md）

14.1 代码为何是“逻辑性/可执行性”的强 proxy：可自动验收、低主观
14.2 基准组合：入门题/工程题/算法题/修 bug（覆盖多难度）
14.3 执行式评测：单测、编译、运行沙箱、超时、资源限制、稳定复现
14.4 指标：pass@k、编译率、修复成功率、回归风险（mutation test 可选）
14.5 代码风格与安全：注入风险、命令执行、依赖供应链、许可证扫描
14.6 作为 Agent 的代码：生成工具封装、API client、数据清洗脚本、评测脚本自举
14.7 Ablation：上下文长度、函数调用协议、工具 schema、检索增强对代码的影响
14.8 车舱落地：驾舱一体（车机脚本/配置/对接 API 的安全生成）
中控 UI 自动化脚本/配置生成与沙箱执行
地图/POI API 调用代码的正确性与速率限制处理
车控相关：严格权限与“只生成不执行”的防线设计

第 15 章：Agent 能力评测（ReAct、工具调用、长任务、记忆）（chapter15.md）

15.1 Agent 任务模型：ReAct、Plan-Execute、反思/自纠错、工具调用策略
15.2 基准与场景库：网页任务、软件工程任务、工具链任务、对话驱动任务
15.3 工具与环境：mock 工具 vs 真工具；record-replay；确定性与非确定性控制
15.4 指标：任务成功率、平均步数、成本、时延、恢复能力、工具幻觉率
15.5 长任务与记忆：跨会话偏好、长期目标保持、遗忘与污染检测
15.6 多 Agent 协作（可选）：分工、冲突解决、信息共享与权限隔离
15.7 失败模式库：loop、过度规划、工具滥用、越权操作、对抗提示注入
15.8 车舱落地：驾舱一体（对话→工具→UI→导航的闭环）
地图/POI/电话/媒体/空调等工具链路的端到端成功率
云端 fallback：失败时的解释与继续执行策略
记忆：家庭成员偏好、常用地点、隐私与可删除

第 16 章：GUI→代码 + 端到端驾舱一体基准（系统集成/回归/反查）（chapter16.md）

16.1 GUI→代码任务定义：截图/设计稿→HTML/CSS/JS（或车机 UI DSL）
16.2 数据集与构建：从真实 UI 抽样、组件化标注、可渲染真值与 diff 机制
16.3 指标：渲染一致性（像素/结构）、可交互性、可访问性、可维护性
16.4 端到端驾舱一体场景库设计：
对话 + RAG（手册/FAQ）
DMS/OMS 触发（疲劳/分心/后排异常）
多人语音 I/O（前后排）
中控屏 HTML/UI 控制
地图导航/POI/路况 API
16.5 多模态融合与仲裁：语音/触控/手势/视觉告警的优先级与冲突处理
16.6 安全与人因：驾驶中交互限制、确认策略、误触成本、最小分心原则
16.7 持续测评与回归：Nightly、场景冒烟、线上日志回放、版本门禁
16.8 Ablation 工程：feature flag、模块替换（ASR/TTS/RAG/Agent/GUI）、贡献归因
16.9 训练数据问题反查：失败聚类→相似样本检索→污染/记忆定位→修数闭环
16.10 交付模板：车载 Model Card、风险清单、上线检查表、事故复盘格式
16.11 车舱落地：驾舱一体（从基准到量产：端侧/云侧/OTA 全链路）
离线优先 + 云端增强的统一评测口径
车控与导航的“可审计”执行日志
量产监控：线上指标漂移、灰度策略、紧急回滚

MLLM 多模理解与生成大模型测评教程（中文）

目录

统一阅读方式与交付物（全书贯穿）

Chapter-by-chapter 详细大纲（index）

第 1 章：测评总览与能力树（chapter1.md）

第 2 章：数据、指标与统计：从“可比”到“可信”（chapter2.md）

第 3 章：评测平台工程化：统一接口、批量运行、可视化与 CI（chapter3.md）

第 4 章：ASR 测评（语音识别）（chapter4.md）

第 5 章：TTS 测评（语音合成）（chapter5.md）

第 6 章：音频/音乐理解与生成测评（chapter6.md）

第 7 章：自然图像理解与 OCR（含交通牌、扫码、天气等）（chapter7.md）

第 8 章：视频理解（含人流、事件、时序推理、驾驶相关）（chapter8.md）

第 9 章：人头/人脸图像与视频理解（AU、Blendshape、DMS/OMS）（chapter9.md）

第 10 章：GUI 截屏/录屏理解与操作评测（ScreenSuite 等）（chapter10.md）

第 11 章：文本逻辑性、事实性与低幻觉：客观打分体系（chapter11.md）

第 12 章：RAG 评测：检索与生成的端到端客观评分（chapter12.md）

第 13 章：文字 + 语音 Role-play 的主观人评（CharacterEval 等）（chapter13.md）

第 14 章：代码生成能力评测（作为逻辑性与 Agent 能力 Proxy）（chapter14.md）

第 15 章：Agent 能力评测（ReAct、工具调用、长任务、记忆）（chapter15.md）

第 16 章：GUI→代码 + 端到端驾舱一体基准（系统集成/回归/反查）（chapter16.md）