第4章 多模态 Agent 评测
MMMU/MathVista/MMBench/MME/DocVQA/ChartQA/Video-MME/VoiceBench 等 5+ 多模态 benchmark 全景、SOTA 数据、VLM hallucination、幻觉防御
第4章 📏 多模态 Agent 评测
一句话:MMMU 是综合标杆,MathVista 测推理,Video-MME 测视频,VoiceBench 测音频 ——这 4 个 benchmark + 文档专项的 DocVQA / ChartQA 是 2026 多模态 LLM 评测的”五大主战场”。本章给完整数据 + 模型对比 + 幻觉防御。
📑 目录
- 一、多模态评测的独特挑战
- 二、综合 benchmark:MMMU 与 MMBench
- 三、推理 benchmark:MathVista
- 四、文档/图表:DocVQA/ChartQA/OCRBench
- 五、视频:Video-MME 等
- 六、音频:VoiceBench 与 ASR/TTS 评测
- 七、SOTA 全景排行榜
- 八、VLM Hallucination 与防御
- 九、自建多模态 benchmark
一、多模态评测的独特挑战
与文本 LLM 评测相比,多模态有 4 个独特挑战:
1.1 任务多样性
文本任务:QA / 推理 / 代码 — 几个主类。 多模态任务:OCR / VQA / Chart / Diagram / Math / Video / Counting / Spatial reasoning — 数十个细分类。
1.2 答案格式多样
- 单选(MMMU)
- 短答案(VQA)
- 数字(counting / OCR)
- 长描述(captioning)
- 多步推理(MathVista)
每种格式需要不同评分方法。
1.3 视觉细节敏感
LLM 可能”猜对”答案——靠语言先验,不真看图。真正测视觉能力需要刻意设计干扰图。
1.4 Hallucination 严重
VLM 容易编造图里没有的细节(详见 § 八)——纯文本 benchmark 没有这个问题。
二、综合 benchmark:MMMU 与 MMBench
2.1 MMMU(Massive Multi-discipline Multimodal Understanding)⭐
主页:https://mmmu-benchmark.github.io 论文:arXiv 2311.16502
特色:
- 大学考试题(物理/化学/数学/医学/工程等 30 个领域)
- 11500+ 题,涵盖 6 大学科 30 个子领域
- 都是专家级 + 真考试——不是简单网图
- 多选 / 短答两种格式
示例:一张化学结构图 + “下列哪个是该化合物的 IUPAC 名”
SOTA(2026):
| 模型 | MMMU |
|---|---|
| GPT-5 vision | 78% |
| Claude Opus 4.5 | 76% |
| GPT-4o | 75% |
| Claude 4 Sonnet | 73% |
| Gemini 2.5 Pro | 70% |
| Qwen2.5-VL-72B | 70% |
| InternVL3-78B | 71% |
| LLaVA-OneVision-72B | 65% |
| 人类专家 | 88% |
观察:头部模型已突破 75%,但距人类专家仍有 ~13% 差距。
2.2 MMBench
特色:细粒度能力分类,18 个 leaf abilities(perception / reasoning / object / OCR / counting 等)。
适合诊断模型短板 ——MMMU 给一个总分,MMBench 告诉你哪里弱。
2.3 MME
早期(2023)综合 benchmark,14 类感知 + 认知任务。现已被 MMMU/MMBench 超越,但仍作为快速 baseline。
三、推理 benchmark:MathVista
主页:https://mathvista.github.io 论文:arXiv 2310.02255
特色:
- 数学 + 视觉双任务
- 6141 题,5 个细分(几何 / 数学统计 / 逻辑 / 代数 / 算术)
- 是测真推理(不只是看)的重要 benchmark
示例:一张三角形图 + “求 ∠ABC 的度数”
SOTA(2026):
| 模型 | MathVista |
|---|---|
| Claude Opus 4.5 + 图像推理 | 80% ⭐ |
| GPT-5 vision | 78% |
| o3 + vision | 77% |
| Claude 4 Sonnet | 73% |
| GPT-4o | 73% |
| Qwen2.5-VL-72B | 75% |
| Gemini 2.5 Pro | 72% |
观察:推理模型(Opus / o3)优势明显——说明数学题图需要长思考,与模块四第 5 章”推理时 scaling”呼应。
四、文档/图表:DocVQA/ChartQA/OCRBench
4.1 DocVQA
特色:扫描文档(发票、表单、合同)QA。50000+ 文档。
SOTA:
| 模型 | DocVQA |
|---|---|
| Qwen2.5-VL-72B | 97% ⭐ |
| Claude 4 Sonnet | 96% |
| GPT-4o | 92% |
| Gemini 2.5 Pro | 91% |
| InternVL3-78B | 95% |
观察:Qwen2.5-VL 在文档 OCR 反超 GPT-4o ——开源 VLM 的标志性突破。
4.2 ChartQA
特色:数据图(柱状/折线/饼图)+ 数值问答。
SOTA:
| 模型 | ChartQA |
|---|---|
| Claude 4 Sonnet | 88% |
| Qwen2.5-VL-72B | 88% |
| GPT-4o | 86% |
| Gemini 2.5 Pro | 84% |
4.3 OCRBench
专项 OCR 评测:1000 题,涵盖 5 类(text recognition、scene text、document、handwritten、table)。
SOTA:
| 模型 | OCRBench |
|---|---|
| Qwen2.5-VL-72B | 90% ⭐ |
| InternVL3-78B | 88% |
| Claude 4 Sonnet | 88% |
| GPT-4o | 85% |
观察:OCR / 文档场景已是开源 VLM 主战场 ——Qwen / InternVL 反超 GPT-4o。
五、视频:Video-MME 等
5.1 Video-MME
主页:https://video-mme.github.io
特色:
- 900 个视频,30 类领域
- 视频长度从 10s 到 1h 不等
- 2700 道选择题
- 评测视频理解 + 推理
SOTA(2026):
| 模型 | Video-MME(short/medium/long) |
|---|---|
| Gemini 2.5 Pro | 78% ⭐ |
| Claude 4 Sonnet | 65% |
| GPT-4o | 71% |
| Qwen2.5-VL-72B | 73% |
| InternVL3-78B | 70% |
观察:Gemini 在长视频上一骑绝尘 ——1M context 优势。
5.2 EgoSchema
特色:第一视角(egocentric)视频理解。VLM 短板 ——头部都不到 60%。
5.3 ActivityNet-QA
经典视频 QA,已饱和(头部 80%+)。
5.4 VideoChatGPT
5 维度评测(correctness/detail/contextual understanding/temporal/consistency),用 LLM-as-Judge 打分。
六、音频:VoiceBench 与 ASR/TTS 评测
6.1 VoiceBench
特色:专测音频指令理解(不是 ASR——是听完后能不能正确执行复杂指令)。
SOTA(2026,选关键 sub-task):
| 模型 | VoiceBench(综合) |
|---|---|
| GPT-4o Realtime | 80% |
| Gemini 2.0 Live | 75% |
| Qwen2.5-Omni-7B | 70% |
6.2 ASR 评测(独立)
关键指标:WER(Word Error Rate),越低越好。
| 模型 | LibriSpeech (clean) WER |
|---|---|
| Whisper Large v3 | 1.8% |
| Voxtral(Mistral) | 1.5% ⭐ |
| Qwen2.5-Audio | 2.1% |
| Google USM | 1.9% |
6.3 TTS 评测
主观:MOS(Mean Opinion Score,1-5 人评)。 客观:UTMOS(自动 MOS 估计)、Speaker similarity、Mel cepstral distortion。
主流商业 TTS 中:
- ElevenLabs ──MOS ~4.5 ⭐
- OpenAI tts-1-hd ──MOS ~4.3
- Google Wavenet ──MOS ~4.1
七、SOTA 全景排行榜
(2026-Q2,选关键 7 大 benchmark)
| 模型 | MMMU | MathVista | DocVQA | ChartQA | Video-MME | VoiceBench | OCRBench |
|---|---|---|---|---|---|---|---|
| GPT-5 vision | 78% | 78% | 92% | 86% | 71% | — | 85% |
| Claude Opus 4.5 | 76% | 80% ⭐ | 96% | 88% | 65% | — | 88% |
| Claude 4 Sonnet | 73% | 73% | 96% | 88% | 65% | — | 88% |
| GPT-4o | 75% | 73% | 92% | 86% | 71% | 80% | 85% |
| Gemini 2.5 Pro | 70% | 72% | 91% | 84% | 78% ⭐ | 75% | 80% |
| Qwen2.5-VL-72B | 70% | 75% | 97% ⭐ | 88% | 73% | — | 90% ⭐ |
| InternVL3-78B | 71% | 73% | 95% | 87% | 70% | — | 88% |
| Qwen2.5-Omni-7B | 60% | 65% | 88% | 80% | 65% | 70% | 80% |
| LLaVA-OneVision-72B | 65% | 68% | 90% | 80% | 65% | — | 75% |
解读:
- MMMU 综合:GPT-5 / Claude Opus 4.5 领先(78/76%)
- 数学推理:Claude Opus / o3 / GPT-5 压倒性领先 — 推理模型在 vision 也很强
- OCR / 文档:Qwen2.5-VL 反超
- 视频:Gemini 2.5 一骑绝尘
- 音频对话:GPT-4o Realtime 第一
八、VLM Hallucination 与防御
8.1 VLM 幻觉的特殊性
VLM 比文本 LLM 更易幻觉:
| 类型 | 例子 |
|---|---|
| Object hallucination | 描述图中”有只猫”但其实没有 |
| Attribute | 说”红色车”但车是蓝色 |
| Counting | 说”3 个人”但只有 2 个 |
| Relation | 说”A 在 B 左边”但相反 |
| OCR error | 错读金额(99 → 90) |
8.2 测幻觉的 benchmark
- POPE(Polling-based Object Probing,arXiv 2305.10355)— 对每张图问”图中有 X 吗”,检测虚构物体
- HallusionBench(arXiv 2310.14566)— 视觉幻觉 + 语言幻觉双重测
- OCR-Hallucination(自 OCRBench 衍生)
8.3 防御策略
A. 视觉 Chain-of-Thought
让 VLM 先详细描述图片,再回答 — 强制它”看图”再”想”。
Prompt:
请分两步:
Step 1. 详细描述图片所有内容
Step 2. 基于上述描述回答问题:[问题]
研究显示能减少幻觉 30-50%。
B. Self-Consistency
多次采样,看是否一致。不一致 = 可能幻觉。
C. Verifier
用另一个 VLM(可能不同家厂商)校验答案。
D. 显式 grounding
要求模型指出在图中哪里找到证据(给坐标 / 框)。
九、自建多模态 benchmark
如果你的领域(医疗 / 法律 / 工业 / 内部产品)需要专属评测:
9.1 数据收集
1. 从生产环境抽 200-500 个真实 case
2. 每个 case = (图 + 问题 + ground truth 答案)
3. 平衡难度(简单 / 中等 / 难)
4. 加 hallucination 测试题(故意问"图中没有的"东西)
9.2 评分方式
def evaluate(model, dataset):
results = {'correct': 0, 'hallucination': 0, 'partial': 0}
for item in dataset:
answer = model(item.image, item.question)
if item.answer_type == 'exact':
if answer.strip() == item.gt:
results['correct'] += 1
elif item.answer_type == 'open':
# 用 LLM-as-Judge(详见模块八)
score = llm_judge(answer, item.gt, item.question)
if score >= 0.8:
results['correct'] += 1
elif score >= 0.5:
results['partial'] += 1
elif item.answer_type == 'hallucination_check':
# 题目是"图中是否有 X",X 实际不存在
if 'no' in answer.lower() or 'not' in answer.lower():
results['correct'] += 1
else:
results['hallucination'] += 1
return results
9.3 工具支持
- lmms-eval:开源多模态评测框架(类似 lm-eval-harness)
- VLMEvalKit:OpenCompass 旗下,涵盖 30+ benchmark
- LMMs-Lab:LLaVA 团队的评测工具
✅ 自我检验清单
- 能说出多模态评测的 4 大独特挑战
- 能解释 MMMU / MathVista / MMBench 各自定位
- 能背出 2026 MMMU 头部 5 家数字
- 能说出 Qwen2.5-VL 在哪些 benchmark 反超 GPT-4o
- 能解释 Gemini 2.5 在视频上的优势
- 能列出 VLM 5 类幻觉 + 4 种防御
- 能给出自建多模态 benchmark 的步骤
📚 参考资料
Benchmark 论文
- MMMU (arXiv 2311.16502)
- MathVista (arXiv 2310.02255)
- MMBench (arXiv 2307.06281)
- DocVQA (arXiv 2007.00398)
- ChartQA (arXiv 2203.10244)
- Video-MME (arXiv 2405.21075)
- POPE (arXiv 2305.10355)
- HallusionBench (arXiv 2310.14566)
- OCRBench (arXiv 2305.07895)
Leaderboards
- MMMU — https://mmmu-benchmark.github.io
- MathVista — https://mathvista.github.io
- Video-MME — https://video-mme.github.io
- OpenCompass MM Leaderboard — https://rank.opencompass.org.cn
评测框架
- VLMEvalKit — https://github.com/open-compass/VLMEvalKit
- lmms-eval — https://github.com/EvolvingLMMs-Lab/lmms-eval
下一章:第5章 端到端实战 — 企业多模态助手(发票 OCR + 视频摘要 + 语音 bot 三场景),整合 Qwen2.5-VL + Whisper + GPT-4o Realtime。