vl_benchmark_tutorial

Chapter 4：图表、表格与可视化问答 (ChartQA & Friends)

1. 开篇：结构化视觉的“最后且最难的一公里”

在 OCR（Chapter 3）解决了“把图变成字”的问题后，我们面临着更高的挑战：把图变成逻辑。

图表（Charts）、绘图（Plots）和表格（Tables）是人类高度压缩信息的产物。它们不仅包含文本，还包含几何语义（Geometric Semantics）——柱子的高度代表数值，线条的斜率代表趋势，颜色的差异代表类别。

对于通用的多模态大模型（MLLM），图表理解通常是重灾区。模型经常会产生“视觉幻觉”：看对了数字，但把轴和轴张冠李戴；或者在计算“增长率”时一本正经地胡说八道。

本章学习目标：

全景掌握 ChartQA、PlotQA、TabFact、ChartX 等核心基准的差异与评测侧重。
深入理解 评估指标中的“数值容忍度（Tolerance）”与“程序化思维（PoT）”。
掌握核心配方：如何利用 Image-to-Table 的中间模态，以及如何构建大规模合成数据（Synthesis Pipeline）。
实战诊断：解决分辨率丢失、颜色对齐错误和数值计算幻觉。

2. 任务谱系与核心挑战

在深入基准之前，我们需要建立一个图表任务的能力金字塔。大多数基准测试都在考察以下一层或多层能力：

2.1 图表理解的四个维度

结构提取 (Structural Extraction)
- 定义：将像素级的图表还原为结构化的数据表（Markdown/JSON）。
- 难点：多轴对齐、图例（Legend）与数据点的映射、重叠的数据点。
数值检索 (Value Retrieval)
- 定义：类似于“查字典”，找到特定条件下的具体数值。
- 示例：“2022年 Q3 的营收是多少？”
视觉推理与趋势 (Visual Reasoning)
- 定义：不依赖具体数值，仅凭视觉特征进行判断。
- 示例：“哪条曲线的波动幅度最大？”、“蓝色柱子是否一直高于橙色柱子？”
数值计算 (Arithmetic Reasoning)
- 定义：模型最不擅长的领域。涉及加减乘除、平均值、极值计算。
- 示例：“这两年的平均增长率是多少？”（注：这通常需要模型调用外部工具或生成代码，单纯靠端到端推理极易出错）。

[ 能力层级图示 ]

      +------------------------------------------+
      |  L4: 复杂计算 (Avg, Sum, Rate, Ratio)    |  <-- 需要 Program-of-Thought
      +------------------------------------------+
      |  L3: 趋势与比较 (Trend, Logic)           |  <-- 需要全局视觉感受野
      +------------------------------------------+
      |  L2: 精确读数 (Read Value)               |  <-- 需要高分辨率 & 坐标对齐
      +------------------------------------------+
      |  L1: 元素识别 (OCR + Legend Mapping)     |  <-- 基础能力
      +------------------------------------------+

3. 核心基准详解 (Deep Dive into Benchmarks)

我们将重点分析三个奠基性基准（ChartQA, PlotQA, TabFact）和一个现代综合基准（ChartX）。

3.1 ChartQA: 事实上的工业标准

发布方：Google Research
组成：
Human-written (9.6k)：由人类标注员看着图表提问。问题通常非常自然，涉及图表标题的语义理解、常识推理。
Machine-generated (17.1k)：使用工具生成的图表，并自动生成 QA。这部分用于保证“数据提取”的绝对精确性。
核心特性：它是目前评估 VLM 图表能力的首选指标。如果你的模型只在一个图表榜单上刷分，那就选 ChartQA。
Rule of Thumb：ChartQA 的 Human 子集比 Machine 子集难得多，因为人类问题往往包含“隐含前提”（例如问“除了美国以外最高的…”，模型如果没看到“除了美国”就会错）。

3.2 PlotQA: 科学与密集的挑战

特点：数据来源于科学论文和统计局报告。
差异点：相比 ChartQA 的商业图表，PlotQA 的图表数据密度极高（例如包含 50 个点的折线图）。
评测重点：它迫使模型必须具备高分辨率感知能力。如果使用标准的 CLIP 224x224 或 336x336 输入，模型在 PlotQA 上基本就是瞎猜。

3.3 TabFact: 逻辑验证的试金石

形式：输入通常是表格的图像（或结构化文本），任务是判断一个陈述句是 Entailment (蕴含/真) 还是 Refutation (反驳/假)。
难点：这不仅仅是看图，而是逻辑运算。
Example: “Row 3, 5, and 7 all list companies founded after 2000.”
模型必须先定位 Row 3,5,7 -> 提取成立年份 -> 比较是否 >2000 -> 对三个结果取 AND 操作。
地位：它是检验模型是否存在“逻辑漏洞”的最佳数据集。

3.4 ChartX (及其他现代基准)

ChartX：为了解决上述基准类型单一的问题，ChartX 引入了雷达图、箱线图、热力图等 18 种图表类型。它还提供了一套多模态的评估集，要求模型输出结构化表格、代码和答案。
Matcha / DePlot 衍生集：强调将图表转化为 Markdown/HTML 表格的能力。

基准名称	数据源	核心能力	评价指标	适用场景
ChartQA	爬取+合成	综合问答、读数	Relaxed Acc	通用图表能力首选
PlotQA	科学论文	密集数据检索、计算	Relaxed Acc	科研、统计分析
TabFact	Wikipedia	逻辑蕴含判断 (T/F)	Binary Acc	逻辑校验、RAG 事实核查
ChartX	综合	多样化图表、结构化输出	Weighted Score	高级多面手模型

4. 评测协议与指标 (Metrics & Protocols)

图表评测不同于自然图像描述，差之毫厘，谬以千里。

4.1 宽松准确率 (Relaxed Accuracy)

这是图表评测中最关键的概念。

问题：Ground Truth 是 35.2，模型根据图像像素估算出 35.1。这是错的吗？
原理：在没有源数据的情况下，人眼也不可能读出绝对精确值。
公式：
注意：对于文本类答案（如 “USA”），仍然使用 Exact Match (EM)。评测脚本必须能自动判断答案是数值还是文本。

4.2 思维链 (CoT) vs. 程序思维 (PoT)

在 ChartQA 等榜单上，SOTA（State-of-the-Art）模型通常不直接输出答案。

CoT (Chain of Thought): 让模型先描述图表结构，再定位，最后回答。
优点：提高可解释性。
缺点：模型仍然算不对复杂的加减乘除（LLM 的算术弱点）。
PoT (Program of Thought): 这是一个强力技巧。
Prompt: “请编写一段 Python 代码来计算图表中数据的平均值。”
流程: VLM 提取数据 -> 生成 Python 代码 -> 执行代码 -> 获得答案。
效果: 在数值计算类问题上，PoT 通常比 CoT 高出 10-15 个百分点。

5. 训练数据配方 (Training Recipes)

如果你想训练一个强大的图表理解模型，仅靠开源基准数据是不够的。

5.1 合成数据流水线 (Synthesis Pipeline)

这是业界构建图表模型的主流方法（Rule of Thumb: Data Engine is King）。

数据源: 随机生成数值矩阵，或从 Wikipedia 表格中采样。
渲染引擎: 使用 Matplotlib, Seaborn, Plotly, Echarts 等库。
- 技巧: 随机化字体、颜色、背景噪声、网格线样式、分辨率。
QA 生成: 因为生成图表的源代码（Source Code）和数据表是已知的，我们可以确切地知道“最大值是多少”、“X轴标签是什么”。
- Prompting GPT-4: 将数据表输入给 GPT-4，让它生成复杂的推理问题。

5.2 两阶段训练策略

Stage 1: Image-to-Text Alignment (Pre-training)
任务：给定图表，要求模型输出对应的 Markdown 表格或 HTML 代码。
目的：这被称为 “DePlot” 策略。强迫模型学会“解析”图表结构，而不仅仅是做 QA。
Stage 2: Instruction Tuning
任务：混合 ChartQA, PlotQA 和合成数据进行问答训练。
技巧：加入 PoT 数据，即 (Image, Question) -> (Python Code, Answer)。

6. 常见陷阱与调试 (Gotchas & Debugging)

1. 分辨率诅咒 (Resolution Curse)

现象: 模型在 PlotQA 表现极差，或者在密集柱状图中“指鹿为马”。
原因: CLIP/SigLIP 的标准输入 (224/336px) 会导致密集的刻度线混叠（Aliasing）。
Rule of Thumb: 图表任务建议使用 HighRes 策略（如 LLaVA-Next 的 AnyRes，或 Monkey 的切片策略），至少支持到 1000px 级别的输入。

2. Y轴单位的“隐形杀手”

现象: 柱子在 50 的刻度，模型回答 “50”，但正确答案是 “50 Million”。
原因: Y轴顶部通常有一个微小的文本 “(in millions)” 或 “10^6”。这些角落的文字经常被模型忽略或被 Crop 掉。
调试: 检查你的预处理/裁切逻辑，确保没有把图表边缘切掉。

3. 图例颜色混淆 (Legend Confusion)

现象: 分不清多条曲线谁是谁。
原因: 许多视觉编码器对颜色的语义绑定很弱（特别是当颜色相近时，如深蓝 vs 浅蓝）。
对策: 在训练数据中强制加入“颜色-语义”对齐任务（例如：“红色虚线代表什么？”）。

7. 本章小结

图表理解是结构化提取与逻辑推理的结合。
ChartQA 是必测基准；TabFact 测试逻辑；ChartX 测试广度。
Relaxed Accuracy 是处理数值答案的行业标准。
训练的秘密武器是：大规模代码合成数据 + Image-to-Table 预训练 + Program-of-Thought 推理。

8. 练习题

基础题 (50%)

Q1: 为什么在评估 ChartQA 的数值问题时，不能直接使用字符串匹配（Exact Match）？请举例说明。

> **Hint**: 考虑图像分辨率和浮点数表示。 > **Answer**: > 1. **视觉模糊性**: 图像中的柱状图高度可能对应 50.2，但人眼或模型读成 50.1 或 50.3 都是合理的视觉误差。 > 2. **格式差异**: GT 可能是 "50%" 或 "$50"，而模型输出 "0.5" 或 "50"。 > 3. **浮点精度**: 计算机浮点数 33.333... 与 33.33 在字符串上不匹配，但在数值上应视为正确。 > 因此，必须解析数值并计算相对误差（通常）。 > >

Q2: 解释什么是 "DePlot" 策略，以及它为什么能提升图表问答的效果？

> **Hint**: 中间模态。 > **Answer**: > **DePlot** 是一种两阶段策略：先将图表图像翻译成线性的文本表格（如 Markdown Table）或数据序列，然后再用 LLM 对这个文本表格进行推理回答。 > * 它将“视觉推理”解耦为“视觉感知（转表格）”+“文本推理”。 > * LLM 处理文本表格的能力远强于直接处理图像像素，因此这种转化通常能显著提升推理精度。 > >

Q3: 在 PlotQA 数据集中，模型最容易因为什么原因导致性能大幅下降？

A. 题目太长 B. 图像分辨率不足 C. 颜色太鲜艳 D. 缺乏常识 > **Hint**: PlotQA 的特点是“密集”。 > **Answer**: **B. 图像分辨率不足**。PlotQA 包含大量密集数据点（如 50-100 个点的折线图），低分辨率输入会导致数据点糊成一团，无法区分。

挑战题 (50%)

Q4 (System Design): 你需要构建一个能够处理“2023年财报”PDF 的智能助手，其中包含复杂的混合图表（图+表+文字）。请设计一个处理流水线。

> **Hint**: 不要试图用一个端到端模型解决所有问题。分而治之。 > **Answer**: > **推荐流水线 (Pipeline):** > 1. **Layout Analysis**: 使用检测模型（如 LayoutLM 或 YOLO）定位页面中的图表、表格和纯文本区域。 > 2. **Chart Extraction**: 将图表区域裁剪（Crop），送入专门微调过的 Chart-VLM（如基于 ChartQA 训练的模型）。 > 3. **Table Extraction**: 将表格区域送入 Table-OCR 模型，转为 Markdown/HTML。 > 4. **Integration**: 将图表解析出的“核心数据/结论”和表格文本，与正文文本一起拼接。 > 5. **RAG/Reasoning**: 将整合后的上下文送入 LLM 进行最终问答。 > *关键点*：必须对图表进行高分辨率独立处理，不能直接把整页 PDF 缩放输入 VLM。 > >

Q5 (Metric Hacking): 某研究员发现他的模型在 ChartQA 上得分很高，但在实际应用中，用户问“图中最左边的红色柱子代表什么”，模型经常答错。为什么榜单分数高但 Grounding 能力差？

> **Hint**: 思考 ChartQA 的问题分布。有多少问题是关于“位置”的？ > **Answer**: > * **ChartQA 的偏差**: 大多数问题集中在数据检索（What is the value...）和趋势（Is it increasing...），较少涉及细粒度的视觉定位（Grounding / Referencing）。 > * **OCR 强但视觉弱**: 模型可能只是具备了极强的 OCR 能力，读出了所有文字，然后通过 LLM 的概率猜测将文字与问题匹配（Shortcut Learning），而并没有真正建立“视觉位置”与“文本语义”的几何映射。 > * **改进**: 需要加入 RefCOCO 风格的图表定位数据（Referring Expression on Charts）进行训练。 > >

Q6 (Data Synthesis): 如果你要生成一批合成数据来专门提升模型对“双Y轴图表（Dual Axis Charts）”的理解，你应该如何设计生成代码？

> **Hint**: 双Y轴最容易混淆的是什么？ > **Answer**: > 1. **构造歧义**: 生成两条曲线，一条对应左轴（数值范围 0-100），一条对应右轴（数值范围 1000-5000）。 > 2. **视觉干扰**: 让两条曲线在视觉高度上重叠（例如都在图表中间位置），但实际数值相差巨大。 > 3. **QA 设计**: 专门提问“曲线 A 的数值是多少？”，强迫模型必须去追踪图例，确定曲线 A 对应的轴是左边还是右边。 > 4. **负样本**: 生成一些问题，问“曲线 A 在右轴上的读数是多少？”，训练模型学会拒绝或纠正（“曲线 A 对应的是左轴”）。 > >