视觉理解模型 Benchmark 与训练数据集:中文教程(目录)

本教程面向“视觉理解/多模态大模型(VLM/MLLM)”的评测基准(benchmarks)训练数据集(datasets):从任务谱系、指标与协议,到数据构建、训练混合、泄漏与复现实战。
文件组织:index.md + chapter1.md + chapter2.md + …


如何使用本教程

  • 想快速上手选基准:先读 Chapter 1(全景)→ Chapter 2/3/5/7(按能力选)→ Chapter 10(报告与复现)。
  • 想搭建评测流水线:Chapter 10(协议)+ Chapter 11(工具)优先。
  • 想做训练数据配方:Chapter 9(训练数据集与配方)+ Chapter 8(鲁棒/幻觉)+ Chapter 10(泄漏检测)。

Chapter List(含每章 Section List)

Chapter 1:Benchmark 全景与能力地图

  • 1.1 视觉理解任务谱系:识别 / OCR / 图表 / 推理 / grounding / 视频
  • 1.2 基准选择原则:覆盖面、可复现、成本、领域匹配
  • 1.3 指标速览:Acc、Exact Match、IoU、CIDEr/BLEU、pairwise、human eval
  • 1.4 常见陷阱:数据泄漏、prompt 依赖、图像预处理差异、采样偏差
  • 1.5 代表性基准“索引表”(按能力分类)
  • 综合:MMMUMMVet、MMBench、SEED-Bench、MME
  • 数学/推理:MathVista、ScienceQA、A-OKVQA、OK-VQA
  • OCR/文档:OCRBench v2、TextVQA、DocVQA、InfographicVQA
  • 图表:ChartQA、PlotQA、TabFact(表格事实)
  • Grounding:RefCOCO / RefCOCO+ / RefCOCOg、Flickr30k Entities
  • 视频:MVBenchLongVideoBench、VideoMME、EgoSchema

Chapter 2:图像综合理解与通用 VQA 基准

  • 2.1 通用 VQA 的能力与局限:VQAv2、GQA、VizWiz、CLEVR
  • 2.2 “更像真实应用”的综合基准:MMVet、MMBench、SEED-Bench、MME
  • 2.3 评测设置:zero-shot / few-shot / chain-of-thought(可选)
  • 2.4 结果解读:按类别拆分、错误类型分析、置信度与校准
  • 2.5 报告模板:你应该至少写清楚哪些细节

Chapter 3:OCR 与文档理解基准(从图片文字到结构化信息)

  • 3.1 OCR 能力拆解:检测、识别、阅读理解、版面结构
  • 3.2 代表性基准与数据集
  • OCRBench v2:综合 OCR/文字理解能力
  • TextVQA:场景文字问答
  • DocVQA:文档问答(表格/票据/表单等)
  • InfographicVQA:信息图理解(文字+图形)
  • 3.3 关键指标:EM、F1、ANLS、端到端 vs 分模块
  • 3.4 实战:OCR 失败的常见原因与诊断清单
  • 3.5 训练数据建议:合成数据、真实扫描、弱监督与清洗

Chapter 4:图表、表格与可视化问答(ChartQA & Friends)

  • 4.1 图表任务拆解:读数、比较、趋势、聚合、异常点
  • 4.2 代表性基准
  • ChartQA:图表问答(柱/线/饼等)
  • PlotQA:更强调精确读数与组合推理
  • TabFact:表格事实核验(“对/错”)
  • 4.3 指标与误差:数值容忍(tolerance)、单位与格式规范
  • 4.4 评测策略:渲染分辨率、字体、坐标轴裁切与鲁棒性
  • 4.5 训练数据:图表合成、程序化生成、标注与覆盖面

Chapter 5:多学科与多步推理基准(MMMU / MathVista 等)

  • 5.1 推理类型:符号推理、数值计算、科学常识、跨模态对齐
  • 5.2 代表性基准
  • MMMU:多学科、多模态理解与推理
  • MathVista:视觉数学推理(图形/文本/数值混合)
  • ScienceQA:图文科学题
  • A-OKVQA / OK-VQA:知识增强推理
  • 5.3 指标与协议:MCQ vs 开放式、解析式输出、工具调用(可选)
  • 5.4 错误分析:看错信息 / 算错 / 推理链断裂 / 常识缺失
  • 5.5 提升路径:数据配方、思维模板、检索增强、工具增强

Chapter 6:视觉 Grounding 与指代表达理解(RefCOCO 系列)

  • 6.1 Grounding 任务:referring expression comprehension / generation
  • 6.2 代表性数据集
  • RefCOCO / RefCOCO+ / RefCOCOg:指代目标定位(bbox/region)
  • Flickr30k Entities:短语-区域对齐
  • 6.3 指标:IoU、Acc@IoU、召回、短语级别评估
  • 6.4 评测细节:检测器依赖、分辨率、NMS、token 对齐
  • 6.5 训练数据:区域标注、伪标注、负样本与对比学习

Chapter 7:视频理解与长视频评测(MVBench / LongVideoBench 等)

  • 7.1 视频能力拆解:时序、事件、因果、记忆、跨段检索
  • 7.2 代表性基准
  • MVBench:多维度视频理解任务集合
  • LongVideoBench:长视频理解与记忆挑战
  • VideoMME:综合视频多模态评测
  • EgoSchema:第一视角、脚本化推理
  • 7.3 采样策略:uniform / scene-cut / keyframe / clip-level
  • 7.4 指标与成本:token/帧数预算、延迟、吞吐
  • 7.5 长视频常见失败:遗忘、错位、过拟合 prompt、细节丢失

Chapter 8:鲁棒性、幻觉与安全相关评测(让结果“可信”)

  • 8.1 幻觉类型:凭空编造、过度自信、错误归因
  • 8.2 代表性基准(示例)
  • POPE:对象存在性与幻觉探测
  • HallusionBench:多模态幻觉评估
  • 反事实/对抗扰动集合:遮挡、噪声、颜色偏移、裁切
  • 8.3 指标:precision/recall、校准误差、拒答与不确定性
  • 8.4 报告建议:必须披露的失败案例与红队样例
  • 8.5 训练侧对策:数据去偏、拒答策略、对比对齐、RLAIF(可选)

Chapter 9:训练数据集与配方(从数据到能力)

  • 9.1 训练数据三层:预训练(image-text)/ 指令微调 / 偏好对齐
  • 9.2 常见数据类型:caption、VQA、OCR、图表、grounding、视频对话
  • 9.3 数据构建:采集→去重→过滤→标注→质检→版本管理
  • 9.4 数据混合策略:比例、课程学习、难度采样、领域适配
  • 9.5 泄漏与污染:训练-测试重叠检测、近重复、基准“记忆化”
  • 9.6 合规与伦理:版权、隐私、敏感内容、可追溯性与数据卡

Chapter 10:评测协议、复现与报告(让结果可对比)

  • 10.1 统一输入输出:分辨率、tokenizer、温度、max tokens
  • 10.2 Prompt 规范:模板、few-shot、系统提示、禁止信息泄漏
  • 10.3 评分器:规则匹配、宽松匹配、LLM-as-a-judge(风险与校验)
  • 10.4 统计与显著性:置信区间、bootstrap、分组分析
  • 10.5 报告清单:模型版本、数据版本、代码 commit、硬件与成本
  • 10.6 结果发布:leaderboard 对齐、可复现包、模型卡/数据卡

Chapter 11:工具链与工程实践(从跑分到分析)

  • 11.1 数据与评测框架:任务适配器、统一 dataloader、缓存与重跑
  • 11.2 视觉预处理:resize、pad、crop、帧抽样、OCR 管线(可选)
  • 11.3 自动化分析:错误聚类、可视化面板、casebook 生成
  • 11.4 性能工程:batching、并行、显存优化、量化与推理加速
  • 11.5 复现脚手架:配置管理、seed 管理、实验追踪(W&B/MLflow 可选)

Chapter 12:案例研究(从基准出发做迭代)

  • 12.1 以 OCRBench v2 为目标:定位瓶颈→数据补强→回归测试
  • 12.2 以 MMMU / MathVista 为目标:推理模板与工具增强
  • 12.3 以 RefCOCO 为目标:grounding 误差分解与区域监督
  • 12.4 以 MVBench / LongVideoBench 为目标:长上下文与记忆策略
  • 12.5 端到端迭代范式:指标驱动 + case 驱动 + 泄漏防护

附录(chapter13.md)

  • Appendix A:常用基准与数据集速查表(按任务/规模/格式)
  • Appendix B:指标与评分函数实现要点
  • Appendix C:数据清洗规则模板(去重/过滤/敏感信息)
  • Appendix D:报告与论文图表模板(可复用)