vl_benchmark_tutorial

视觉理解模型 Benchmark 与训练数据集:中文教程(目录)

本教程面向“视觉理解/多模态大模型(VLM/MLLM)”的评测基准(benchmarks)训练数据集(datasets):从任务谱系、指标与协议,到数据构建、训练混合、泄漏与复现实战。
文件组织:index.md + chapter1.md + chapter2.md + …


如何使用本教程


Chapter List(含每章 Section List)

Chapter 1:Benchmark 全景与能力地图


Chapter 2:图像综合理解与通用 VQA 基准


Chapter 3:OCR 与文档理解基准(从图片文字到结构化信息)


Chapter 4:图表、表格与可视化问答(ChartQA & Friends)


Chapter 5:多学科与多步推理基准(MMMU / MathVista 等)


Chapter 6:视觉 Grounding 与指代表达理解(RefCOCO 系列)


Chapter 7:视频理解与长视频评测(MVBench / LongVideoBench 等)


Chapter 8:鲁棒性、幻觉与安全相关评测(让结果“可信”)


Chapter 9:训练数据集与配方(从数据到能力)


Chapter 10:评测协议、复现与报告(让结果可对比)


Chapter 11:工具链与工程实践(从跑分到分析)


Chapter 12:案例研究(从基准出发做迭代)


附录(chapter13.md)