第 1 章：测评总览与能力树

1.1 开篇：绘制多模态能力的“地图”

欢迎进入 MLLM（多模态大语言模型）测评的系统化教程。

在传统的 NLP 时代，测评主要围绕“文本进，文本出”进行。然而，当模型进化为 MLLM 时，我们面临的是一个输入输出组合呈指数级爆炸的复杂系统。一个合格的 MLLM，不仅要是一个“作家”（文本生成），还要是“观察者”（视觉理解）、“倾听者”（语音识别）、“程序员”（代码/动作生成）甚至是“决策者”（Agent）。

测评 MLLM 的核心难点不在于跑几个脚本，而在于定义“什么是好”。

一张路牌图片，OCR 识别对了文字，但没理解“禁止左转”的红圈含义，算对还是错？
用户说“把那个关掉”，模型需要结合视线追踪（DMS）才知道用户看的是车窗还是空调，这该怎么测？

本章学习目标：

能力解构：学会区分“原子能力”与“系统能力”，构建全维度的 I/O 矩阵。
测评层级：理解从感知、逻辑、安全到体验的“测评金字塔”。
基准设计：掌握如何选择 Baseline（SOTA、竞品、上一版本、人类基线）。
交付标准化：定义 Model Card、Leaderboard 和回归报告的标准格式。
车舱落地：建立“驾舱一体”场景下的测评全景图（端云结合、多模交互）。

1.2 MLLM 的“能力”到底指什么？

我们在讨论测评时，经常混淆两个概念：模型做题的能力（Academic Benchmarks）与模型解决问题的能力（Product Capabilities）。

1.2.1 原子任务能力 (Atomic Capabilities)

这是指模型在单一模态、单一任务定义下的表现。通常对应学术界的公开数据集。

示例：ASR 的字错误率 (WER)、图像分类的 Top-1 Accuracy、OCR 的字符准确率。
特点：客观、易量化、易复现。
局限：高分不一定高能。ASR 听得很准，但意图理解错了，用户体验依然是 0 分。

1.2.2 系统综合能力 (System Capabilities)

这是指模型作为 Agent，串联多个原子能力完成用户意图的表现。

示例：用户指着中控屏上的导航地图问：“这附近哪家咖啡厅能在 5 分钟内走到？”
- 需要能力链条：ASR（听懂） -> Intent（意图识别） -> Tool Use（调用地图 API 获取 POI） -> Logic（筛选 < 5min 步行距离） -> TTS（语音回答）。
特点：主观性强、链路长、错误会累积。

Rule of Thumb #1: 木桶效应与乘法效应

在 MLLM 测评中，系统能力的成功率近似于链路上各原子能力成功率的乘积。如果 ASR 90%，意图理解 90%，API 调用 90%，最终系统成功率只有 $0.9^3 \approx 72.9\%$。 测评策略：原子测评用于归因分析（哪里断了），端到端测评用于验收交付（能不能用）。

1.3 多模态输入输出矩阵 (I/O Matrix)

为了不遗漏测评死角，我们需要建立一个全排列的矩阵。每一行代表输入，每一列代表输出。

+-------------------+---------------------------------------------------------------+
| 输入模态 (Source) |                      输出能力与关键测评点 (Target)             |
+-------------------+---------------------------------------------------------------+
|                   | -> [Text]  Captioning, VQA, OCR(文档/自然场景), 幻觉检测       |
| 1. Image / Video  | -> [Box]   Grounding (坐标定位), 检测与分割, 计数              |
| (视觉感知)        | -> [Code]  GUI 截图转 HTML/Python, 图表转数据 (De-plot)        |
|                   | -> [Risk]  敏感内容过滤 (涉黄/暴/隐私)                         |
+-------------------+---------------------------------------------------------------+
|                   | -> [Text]  ASR (长/短/流式), 歌词对齐, 说话人分离 (Diarization)|
| 2. Audio / Music  | -> [Attr]  情绪识别, 性别/年龄识别, 语种识别 (LID)             |
| (听觉感知)        | -> [Event] 环境声分类 (警笛/婴儿哭/玻璃碎 - 车载重点)          |
|                   | -> [Music] 风格分析, 乐理结构理解                              |
+-------------------+---------------------------------------------------------------+
|                   | -> [Text]  逻辑推理, 摘要, 翻译, 角色扮演 (Role-play)          |
| 3. Text           | -> [Speech] TTS (自然度, 情感可控, 声音克隆相似度)             |
| (认知核心)        | -> [Image] 文生图 (一致性, 美学评分, 文字渲染能力)             |
|                   | -> [Code]  代码生成, SQL 生成, 单元测试通过率                  |
|                   | -> [Action] Tool/API Call (JSON 格式正确性, 参数准确性)        |
+-------------------+---------------------------------------------------------------+
| 4. Multimodal Mix | -> [E2E]   视频+语音问答, 屏幕+指令操作, 驾驶场景险情描述      |
| (多模态融合)      | -> [State] 记忆更新 (用户偏好画像), 上下文状态保持             |
+-------------------+---------------------------------------------------------------+

重点关注的“隐形”模态：

Time (时间)：视频和音频都有时序。模型能否理解“先...后...”、“视频第 3 秒发生了什么”。
Space (空间)：3D 理解。模型能否理解图片中的遮挡关系、距离远近（尤其是单目视觉下的深度估计）。

1.4 测评金字塔：分层评价体系

不要试图用一个分数概括模型。对于车舱等严肃场景，必须采用分层门禁（Gating）策略。

             / \
            /   \        Level 4: 体验与拟人 (Experience)
           /-----\       --------------------------------
          /       \      关键词：有趣、风格一致、多轮不烦、共情
         /---------\     测评法：Elo Rating, 众包 Side-by-Side, 细粒度 Rubric
        /           \
       /-------------\   Level 3: 安全与鲁棒 (Safety & Robustness)
      /               \  -----------------------------------------
     /-----------------\ 关键词：拒答攻击、指令注入、防甚至幻觉、隐私合规
    /                   \ 测评法：Red Teaming (红队测试), 边界值压力测试
   /---------------------\
  | Level 2: 逻辑与执行   | Level 2: 逻辑与执行 (Reasoning & Agency)
  | (Logic & Execution)   | -----------------------------------------
  |                       | 关键词：多步推理、RAG 事实性、代码逻辑、工具调用
  +-----------------------+ 测评法：GSM8K类, IFEval, 客观正确率 (Exact Match)
  | Level 1: 基础感知     | Level 1: 基础感知 (Perception)
  | (Perception)          | -----------------------------------------
  +-----------------------+ 关键词：听清(WER)、看准(mAP/IoU)、读对(OCR)
                            测评法：标准学术数据集, 自动化脚本
  =========================
  [ 底座约束: 时延 (Latency) | 吞吐 (Throughput) | 显存成本 (VRAM) ]

1.4.1 分层执行策略

Level 1 & 3 (Hard Gate)：如果是车载模型，ASR 听不清指令，或者安全测试不通过（如允许用户语音打开引擎盖），直接不准上线。这两个层级适合做 CI/CD 的自动化阻断。
Level 2 (Soft Gate)：逻辑能力通常随模型规模提升。需要设定“基线分”，低于基线需特批。
Level 4 (Monitoring)：体验往往是千人千面的。通常不作为阻断项，而是作为 A/B 测试的观察指标。

1.5 评测资产与交付物

不要只给老板发一个 Excel 表格。专业的测评体系需要维护以下资产：

1.5.1 Model Card (模型身份证)

每当发布一个新模型版本，必须附带 Model Card，包含：

训练数据截止日期：防止询问“昨天的新闻”产生幻觉。
能力边界：明确写出“不能做”的事（例如：本模型不支持识别手写潦草字体）。
适用场景：推荐用于闲聊助手，不推荐用于医疗诊断。

1.5.2 Leaderboard & Regression Dashboard

纵向对比（回归）：v1.2 vs v1.1。必须计算 Win/Tie/Loss 比例。
- 警惕：总分提升，但核心能力下降。例如模型变得更聪明了，但 OCR 变差了（遗忘灾难）。
横向对比（竞品）：Compare with GPT-4o, Gemini 1.5 Pro, Qwen2-VL, etc.
- 意义：确立当前模型的行业水位。

1.5.3 Bad Case Taxonomy (错误归因库)

不仅要记录错题，还要对错误进行分类（Taxonomy）：

感知错误：根本没看清图/没听清音。
知识缺失：看清了，但不知道那是什么（例如不认识某种新型路标）。
逻辑断裂：推理步骤跳跃。
指令遵循失败：没按要求格式输出（如要求输出 JSON 却输出了 Markdown）。
拒答/过度防御：本来能答的，因为安全策略误判而拒绝。

1.6 基线与对照：如何选 Baseline

Rule of Thumb #2: 测评的本质是“相对论” 绝对分数（如 85.4 分）没有意义，分数的差值（Delta）才有意义。

在设计实验时，至少包含以下三类 Baseline：

SOTA (State-of-the-Art) 上限：
- 通常选择最强的闭源模型（如 GPT-4o）。这是用来打击自信心和寻找差距的。
Previous Best (自研历史最佳)：
- 这是用来证明“我这周没白干”的。必须通过回归测试。
Heuristic / Pipeline (非端到端基线)：
- 重要：对于 RAG 或工具调用，如果不比“关键词检索 + 规则”更好，那为什么要用昂贵的 LLM？
- 对于 OCR，如果不比传统的 PP-OCR 或 Tesseract 更好，那 MLLM 还有什么价值？

1.7 车舱落地：驾舱一体测评概览

本教程的特色在于每章末尾的“上车”环节。车舱环境是 MLLM 最复杂、最苛刻的落地场景之一。

1.7.1 驾舱一体交互链路图

在车里，MLLM 不是一个孤立的 App，它是连接人与车的中枢神经。

     [人: 驾驶员/乘客]        [环境: 路况/天气]       [云端: 知识/服务]
            |                        |                       |
+-----------v------------------------v-----------------------v-----------+
|                          输入层 (Sense)                                |
| 1. 舱内视觉 (IMS): DMS(疲劳/视线), OMS(手势/物品), Lip-reading(唇语)   |
| 2. 舱内听觉: 麦克风阵列 (声源定位, 降噪, AEC回声消除)                  |
| 3. 车辆状态: 车速, 档位, 剩余里程, 故障码                              |
| 4. 舱外感知: ADAS数据 (车道线, 障碍物), 环视摄像头, 天气               |
+------------------------------------+-----------------------------------+
                                     |
+------------------------------------v-----------------------------------+
|                          中枢层 (Think)                                |
| 1. 仲裁 (Arbitration): 谁在说话？该听谁的？(副驾调音量 vs 主驾语音导航)|
| 2. 路由 (Routing): 端侧处理(车控/隐私) vs 云端处理(闲聊/百科)          |
| 3. 记忆 (Memory): 长期偏好(空调习惯) + 短期上下文(刚才提到了那家店)    |
| 4. 安全 (Safety): 驾驶分心检测, 危险指令拦截                           |
+------------------------------------+-----------------------------------+
                                     |
+------------------------------------v-----------------------------------+
|                          输出层 (Act)                                  |
| 1. 语音 (TTS): 分区播放, 情感安抚, 紧急打断                            |
| 2. 视觉 (GUI): 中控屏卡片, AR-HUD 投射, 仪表盘提示                     |
| 3. 车控 (Control): 空调, 车窗, 座椅, 氛围灯, 导航设点                  |
+------------------------------------------------------------------------+

1.7.2 车载测评的核心挑战（相比通用测评）

端侧 vs 云侧的割裂：
- 车机芯片算力有限（NPU）。我们需要测评“量化后的 7B/3B 模型”在端侧的表现，对比云端全精度模型的性能折损率。
- 断网测评：在无网络情况下，基础车控语音助手必须可用。
多模态融合触发 (Multimodal Triggering)：
- 场景：用户看向右后视镜（DMS） + 指着右边（手势） + 说“把他打开”（语音）。
- 测评点：模型能否对齐这三个模态的时间戳，正确识别出“打开右后视镜折叠”或“打开右侧车窗”的意图？
高噪声与远场环境：
- 通用 ASR 测评通常在安静环境下。
- 车载必测：高速风噪（120km/h）、胎噪、车内音乐播放时的“Barge-in”（打断唤醒）、多人同时说话（Cocktail Party Effect）。
安全边界 (Safety Boundary)：
- 红线：模型绝不能在行驶中通过语音指令执行涉及行车安全的操作（如“挂P档”、“打开后备箱”、“关闭大灯”），除非有二次确认或速度限制。
- 测评中需要包含大量的“钓鱼指令”来测试模型的拒绝能力。

1.8 本章小结

全维覆盖：MLLM 测评必须建立覆盖图/文/声/视/控的全 I/O 矩阵。
分层治理：底层测感知（CI 门禁），中层测逻辑（SFT 优化目标），顶层测体验（人工验收）。
基准思维：永远要有 Baseline，没有对比的指标没有价值。
场景为王：在车舱场景下，时延、鲁棒性（抗噪）、安全边界和端侧能力比单纯的“高智商”更重要。

1.9 练习题

基础题

分类题：将以下任务归类到测评金字塔的层级（Level 1-4）。
- (A) 准确识别出图片中红绿灯的颜色。
- (B) 用户说“我很累”，模型用温柔的语气讲个笑话并调暗灯光。
- (C) 拒绝用户“帮我伪造一张请假条”的请求。
- (D) 根据用户模糊的描述“带我去那个有大恐龙的商场”，推断出目的地。
判断题：在车载场景下，如果一个云端大模型回答准确率 99%，但平均延迟 5 秒，是否可以替代准确率 90% 但延迟 0.5 秒的端侧模型进行车控操作（如开窗）？为什么？
场景题：请列举出 3 种 MLLM 的输入模态和 3 种输出模态。

点击查看基础题提示与答案

答案：

(A) Level 1 感知; (B) Level 4 体验; (C) Level 3 安全; (D) Level 2 逻辑。
不可以。车控操作（开窗、调温）属于强实时交互，用户对物理反馈的预期极快。5秒延迟会导致用户重复指令或认为系统故障，造成严重体验下降甚至分心。高频、低风险、强实时的操作应优先端侧。
输入：图像、音频、文本（或视频、3D点云）；输出：文本、语音、代码（或 Action/JSON、图像）。

挑战题

设计题：你要测评一个“车载儿童陪伴助手”（部署在后排屏幕）。
- 你会设计哪些特殊的多模态输入 Case？
- 你需要关注哪些特殊的安全指标？
- 如何评估其长期记忆能力？
思考题：为什么说“代码生成能力”是 GUI Agent（屏幕操作助手）能力的 Proxy（代理指标）？如果模型不会写代码，它能做好 GUI 操作吗？

点击查看挑战题提示与答案

答案：

输入 Case：小孩的哭闹声（音频）、小孩拿着绘本对着摄像头（视觉OCR+TTS朗读）、小孩语无伦次的童言童语（ASR容错）。安全指标：内容过滤（恐怖/色情/暴力）、隐私保护（不收集儿童人脸ID）、引导向善（不教坏小孩）。长期记忆：隔天能否记得小孩的名字、喜欢的动画片角色。
原因：代码生成要求极高的逻辑严密性、符号对应能力和规划能力。GUI 操作本质上是将自然语言转化为结构化的 API 调用或 DOM 树操作序列，这在思维链路上与写代码高度同构。如果模型连 Python 的缩进和变量名都搞不定，很难指望它能准确地在复杂的 UI 树中定位元素并执行多步操作。

1.10 常见陷阱与错误 (Gotchas)

陷阱 1：只测“静态”，不测“动态”。
- 测评只用了静态图片做 VQA，而忽略了视频流。结果模型上线后，面对 continuously changing 的驾驶画面，无法理解“刚才那辆车去哪了”。
陷阱 2：过度依赖 GPT-4 作为 Judge。
- 虽然 LLM-as-a-Judge 很流行，但 GPT-4 也有偏见（喜欢长回复、喜欢某种格式）。在车舱这种短指令场景下，GPT-4 可能会把简洁准确的回答打低分。
- 对策：必须有人工标注的“黄金集”来校准自动打分器的相关性。
陷阱 3：忽视 Prompt Engineering 对测评的影响。
- 很多时候模型测出来分低，是因为测评脚本里的 Prompt 写得太烂，或者没有遵循模型的 Chat Template。
- 对策：测评应使用模型官方推荐的最佳 Prompt 模板，或者进行 Few-shot 引导。