第4章 📏 多模态 Agent 评测

一句话:MMMU 是综合标杆,MathVista 测推理,Video-MME 测视频,VoiceBench 测音频 ——这 4 个 benchmark + 文档专项的 DocVQA / ChartQA 是 2026 多模态 LLM 评测的”五大主战场”。本章给完整数据 + 模型对比 + 幻觉防御。

📑 目录

一、多模态评测的独特挑战
二、综合 benchmark:MMMU 与 MMBench
三、推理 benchmark:MathVista
四、文档/图表:DocVQA/ChartQA/OCRBench
五、视频:Video-MME 等
六、音频:VoiceBench 与 ASR/TTS 评测
七、SOTA 全景排行榜
八、VLM Hallucination 与防御
九、自建多模态 benchmark

一、多模态评测的独特挑战

与文本 LLM 评测相比,多模态有 4 个独特挑战:

1.1 任务多样性

文本任务:QA / 推理 / 代码 — 几个主类。多模态任务:OCR / VQA / Chart / Diagram / Math / Video / Counting / Spatial reasoning — 数十个细分类。

1.2 答案格式多样

单选(MMMU)
短答案(VQA)
数字(counting / OCR)
长描述(captioning)
多步推理(MathVista)

每种格式需要不同评分方法。

1.3 视觉细节敏感

LLM 可能”猜对”答案——靠语言先验,不真看图。真正测视觉能力需要刻意设计干扰图。

1.4 Hallucination 严重

VLM 容易编造图里没有的细节(详见 § 八)——纯文本 benchmark 没有这个问题。

二、综合 benchmark:MMMU 与 MMBench

2.1 MMMU(Massive Multi-discipline Multimodal Understanding)⭐

主页:https://mmmu-benchmark.github.io 论文:arXiv 2311.16502

特色:

大学考试题(物理/化学/数学/医学/工程等 30 个领域)
11500+ 题,涵盖 6 大学科 30 个子领域
都是专家级 + 真考试——不是简单网图
多选 / 短答两种格式

示例:一张化学结构图 + “下列哪个是该化合物的 IUPAC 名”

SOTA(2026):

模型	MMMU
GPT-5 vision	78%
Claude Opus 4.5	76%
GPT-4o	75%
Claude 4 Sonnet	73%
Gemini 2.5 Pro	70%
Qwen2.5-VL-72B	70%
InternVL3-78B	71%
LLaVA-OneVision-72B	65%
人类专家	88%

观察:头部模型已突破 75%,但距人类专家仍有 ~13% 差距。

2.2 MMBench

特色:细粒度能力分类,18 个 leaf abilities(perception / reasoning / object / OCR / counting 等)。

适合诊断模型短板 ——MMMU 给一个总分,MMBench 告诉你哪里弱。

2.3 MME

早期(2023)综合 benchmark,14 类感知 + 认知任务。现已被 MMMU/MMBench 超越,但仍作为快速 baseline。

三、推理 benchmark:MathVista

主页:https://mathvista.github.io 论文:arXiv 2310.02255

特色:

数学 + 视觉双任务
6141 题,5 个细分(几何 / 数学统计 / 逻辑 / 代数 / 算术)
是测真推理(不只是看)的重要 benchmark

示例:一张三角形图 + “求 ∠ABC 的度数”

SOTA(2026):

模型	MathVista
Claude Opus 4.5 + 图像推理	80% ⭐
GPT-5 vision	78%
o3 + vision	77%
Claude 4 Sonnet	73%
GPT-4o	73%
Qwen2.5-VL-72B	75%
Gemini 2.5 Pro	72%

观察:推理模型(Opus / o3)优势明显——说明数学题图需要长思考,与模块四第 5 章”推理时 scaling”呼应。

四、文档/图表:DocVQA/ChartQA/OCRBench

4.1 DocVQA

特色:扫描文档(发票、表单、合同)QA。50000+ 文档。

SOTA:

模型	DocVQA
Qwen2.5-VL-72B	97% ⭐
Claude 4 Sonnet	96%
GPT-4o	92%
Gemini 2.5 Pro	91%
InternVL3-78B	95%

观察:Qwen2.5-VL 在文档 OCR 反超 GPT-4o ——开源 VLM 的标志性突破。

4.2 ChartQA

特色:数据图(柱状/折线/饼图)+ 数值问答。

SOTA:

模型	ChartQA
Claude 4 Sonnet	88%
Qwen2.5-VL-72B	88%
GPT-4o	86%
Gemini 2.5 Pro	84%

4.3 OCRBench

专项 OCR 评测:1000 题,涵盖 5 类(text recognition、scene text、document、handwritten、table)。

SOTA:

模型	OCRBench
Qwen2.5-VL-72B	90% ⭐
InternVL3-78B	88%
Claude 4 Sonnet	88%
GPT-4o	85%

观察:OCR / 文档场景已是开源 VLM 主战场 ——Qwen / InternVL 反超 GPT-4o。

五、视频:Video-MME 等

5.1 Video-MME

主页:https://video-mme.github.io

特色:

900 个视频,30 类领域
视频长度从 10s 到 1h 不等
2700 道选择题
评测视频理解 + 推理

SOTA(2026):

模型	Video-MME(short/medium/long)
Gemini 2.5 Pro	78% ⭐
Claude 4 Sonnet	65%
GPT-4o	71%
Qwen2.5-VL-72B	73%
InternVL3-78B	70%

观察:Gemini 在长视频上一骑绝尘 ——1M context 优势。

5.2 EgoSchema

特色:第一视角(egocentric)视频理解。VLM 短板 ——头部都不到 60%。

5.3 ActivityNet-QA

经典视频 QA,已饱和(头部 80%+)。

5.4 VideoChatGPT

5 维度评测(correctness/detail/contextual understanding/temporal/consistency),用 LLM-as-Judge 打分。

六、音频:VoiceBench 与 ASR/TTS 评测

6.1 VoiceBench

特色:专测音频指令理解(不是 ASR——是听完后能不能正确执行复杂指令)。

SOTA(2026,选关键 sub-task):

模型	VoiceBench(综合)
GPT-4o Realtime	80%
Gemini 2.0 Live	75%
Qwen2.5-Omni-7B	70%

6.2 ASR 评测(独立)

关键指标:WER(Word Error Rate),越低越好。

模型	LibriSpeech (clean) WER
Whisper Large v3	1.8%
Voxtral(Mistral)	1.5% ⭐
Qwen2.5-Audio	2.1%
Google USM	1.9%

6.3 TTS 评测

主观:MOS(Mean Opinion Score,1-5 人评)。客观:UTMOS(自动 MOS 估计)、Speaker similarity、Mel cepstral distortion。

主流商业 TTS 中:

ElevenLabs ──MOS ~4.5 ⭐
OpenAI tts-1-hd ──MOS ~4.3
Google Wavenet ──MOS ~4.1

七、SOTA 全景排行榜

(2026-Q2,选关键 7 大 benchmark)

模型	MMMU	MathVista	DocVQA	ChartQA	Video-MME	VoiceBench	OCRBench
GPT-5 vision	78%	78%	92%	86%	71%	—	85%
Claude Opus 4.5	76%	80% ⭐	96%	88%	65%	—	88%
Claude 4 Sonnet	73%	73%	96%	88%	65%	—	88%
GPT-4o	75%	73%	92%	86%	71%	80%	85%
Gemini 2.5 Pro	70%	72%	91%	84%	78% ⭐	75%	80%
Qwen2.5-VL-72B	70%	75%	97% ⭐	88%	73%	—	90% ⭐
InternVL3-78B	71%	73%	95%	87%	70%	—	88%
Qwen2.5-Omni-7B	60%	65%	88%	80%	65%	70%	80%
LLaVA-OneVision-72B	65%	68%	90%	80%	65%	—	75%

解读:

MMMU 综合:GPT-5 / Claude Opus 4.5 领先(78/76%)
数学推理:Claude Opus / o3 / GPT-5 压倒性领先 — 推理模型在 vision 也很强
OCR / 文档:Qwen2.5-VL 反超
视频:Gemini 2.5 一骑绝尘
音频对话:GPT-4o Realtime 第一

八、VLM Hallucination 与防御

8.1 VLM 幻觉的特殊性

VLM 比文本 LLM 更易幻觉:

类型	例子
Object hallucination	描述图中”有只猫”但其实没有
Attribute	说”红色车”但车是蓝色
Counting	说”3 个人”但只有 2 个
Relation	说”A 在 B 左边”但相反
OCR error	错读金额(99 → 90)

8.2 测幻觉的 benchmark

POPE(Polling-based Object Probing,arXiv 2305.10355)— 对每张图问”图中有 X 吗”,检测虚构物体
HallusionBench(arXiv 2310.14566)— 视觉幻觉 + 语言幻觉双重测
OCR-Hallucination(自 OCRBench 衍生)

8.3 防御策略

A. 视觉 Chain-of-Thought

让 VLM 先详细描述图片,再回答 — 强制它”看图”再”想”。

Prompt:
请分两步:
Step 1. 详细描述图片所有内容
Step 2. 基于上述描述回答问题:[问题]

研究显示能减少幻觉 30-50%。

B. Self-Consistency

多次采样,看是否一致。不一致 = 可能幻觉。

C. Verifier

用另一个 VLM(可能不同家厂商)校验答案。

D. 显式 grounding

要求模型指出在图中哪里找到证据(给坐标 / 框)。

九、自建多模态 benchmark

如果你的领域(医疗 / 法律 / 工业 / 内部产品)需要专属评测:

9.1 数据收集

1. 从生产环境抽 200-500 个真实 case
2. 每个 case = (图 + 问题 + ground truth 答案)
3. 平衡难度(简单 / 中等 / 难)
4. 加 hallucination 测试题(故意问"图中没有的"东西)

9.2 评分方式

def evaluate(model, dataset):
    results = {'correct': 0, 'hallucination': 0, 'partial': 0}
    
    for item in dataset:
        answer = model(item.image, item.question)
        
        if item.answer_type == 'exact':
            if answer.strip() == item.gt:
                results['correct'] += 1
        elif item.answer_type == 'open':
            # 用 LLM-as-Judge(详见模块八)
            score = llm_judge(answer, item.gt, item.question)
            if score >= 0.8:
                results['correct'] += 1
            elif score >= 0.5:
                results['partial'] += 1
        elif item.answer_type == 'hallucination_check':
            # 题目是"图中是否有 X",X 实际不存在
            if 'no' in answer.lower() or 'not' in answer.lower():
                results['correct'] += 1
            else:
                results['hallucination'] += 1
    
    return results

9.3 工具支持

lmms-eval:开源多模态评测框架(类似 lm-eval-harness)
VLMEvalKit:OpenCompass 旗下,涵盖 30+ benchmark
LMMs-Lab:LLaVA 团队的评测工具

✅ 自我检验清单

能说出多模态评测的 4 大独特挑战
能解释 MMMU / MathVista / MMBench 各自定位
能背出 2026 MMMU 头部 5 家数字
能说出 Qwen2.5-VL 在哪些 benchmark 反超 GPT-4o
能解释 Gemini 2.5 在视频上的优势
能列出 VLM 5 类幻觉 + 4 种防御
能给出自建多模态 benchmark 的步骤

📚 参考资料

Benchmark 论文

MMMU (arXiv 2311.16502)
MathVista (arXiv 2310.02255)
MMBench (arXiv 2307.06281)
DocVQA (arXiv 2007.00398)
ChartQA (arXiv 2203.10244)
Video-MME (arXiv 2405.21075)
POPE (arXiv 2305.10355)
HallusionBench (arXiv 2310.14566)
OCRBench (arXiv 2305.07895)

Leaderboards

MMMU — https://mmmu-benchmark.github.io
MathVista — https://mathvista.github.io
Video-MME — https://video-mme.github.io
OpenCompass MM Leaderboard — https://rank.opencompass.org.cn

评测框架

VLMEvalKit — https://github.com/open-compass/VLMEvalKit
lmms-eval — https://github.com/EvolvingLMMs-Lab/lmms-eval

下一章:第5章端到端实战 — 企业多模态助手(发票 OCR + 视频摘要 + 语音 bot 三场景),整合 Qwen2.5-VL + Whisper + GPT-4o Realtime。

搜索