跳到主要内容
Multi-Modal

第4章 多模态 Agent 评测

MMMU/MathVista/MMBench/MME/DocVQA/ChartQA/Video-MME/VoiceBench 等 5+ 多模态 benchmark 全景、SOTA 数据、VLM hallucination、幻觉防御

benchmark mmmu mathvista mmbench video-mme voicebench hallucination

第4章 📏 多模态 Agent 评测

一句话:MMMU 是综合标杆,MathVista 测推理,Video-MME 测视频,VoiceBench 测音频 ——这 4 个 benchmark + 文档专项的 DocVQA / ChartQA 是 2026 多模态 LLM 评测的”五大主战场”。本章给完整数据 + 模型对比 + 幻觉防御。

📑 目录


一、多模态评测的独特挑战

与文本 LLM 评测相比,多模态有 4 个独特挑战:

1.1 任务多样性

文本任务:QA / 推理 / 代码 — 几个主类。 多模态任务:OCR / VQA / Chart / Diagram / Math / Video / Counting / Spatial reasoning — 数十个细分类。

1.2 答案格式多样

  • 单选(MMMU)
  • 短答案(VQA)
  • 数字(counting / OCR)
  • 长描述(captioning)
  • 多步推理(MathVista)

每种格式需要不同评分方法。

1.3 视觉细节敏感

LLM 可能”猜对”答案——靠语言先验,不真看图。真正测视觉能力需要刻意设计干扰图。

1.4 Hallucination 严重

VLM 容易编造图里没有的细节(详见 § 八)——纯文本 benchmark 没有这个问题。


二、综合 benchmark:MMMU 与 MMBench

2.1 MMMU(Massive Multi-discipline Multimodal Understanding)⭐

主页:https://mmmu-benchmark.github.io 论文:arXiv 2311.16502

特色:

  • 大学考试题(物理/化学/数学/医学/工程等 30 个领域)
  • 11500+ 题,涵盖 6 大学科 30 个子领域
  • 都是专家级 + 真考试——不是简单网图
  • 多选 / 短答两种格式

示例:一张化学结构图 + “下列哪个是该化合物的 IUPAC 名”

SOTA(2026):

模型MMMU
GPT-5 vision78%
Claude Opus 4.576%
GPT-4o75%
Claude 4 Sonnet73%
Gemini 2.5 Pro70%
Qwen2.5-VL-72B70%
InternVL3-78B71%
LLaVA-OneVision-72B65%
人类专家88%

观察:头部模型已突破 75%,但距人类专家仍有 ~13% 差距

2.2 MMBench

特色:细粒度能力分类,18 个 leaf abilities(perception / reasoning / object / OCR / counting 等)。

适合诊断模型短板 ——MMMU 给一个总分,MMBench 告诉你哪里弱。

2.3 MME

早期(2023)综合 benchmark,14 类感知 + 认知任务。现已被 MMMU/MMBench 超越,但仍作为快速 baseline。


三、推理 benchmark:MathVista

主页:https://mathvista.github.io 论文:arXiv 2310.02255

特色:

  • 数学 + 视觉双任务
  • 6141 题,5 个细分(几何 / 数学统计 / 逻辑 / 代数 / 算术)
  • 是测真推理(不只是看)的重要 benchmark

示例:一张三角形图 + “求 ∠ABC 的度数”

SOTA(2026):

模型MathVista
Claude Opus 4.5 + 图像推理80%
GPT-5 vision78%
o3 + vision77%
Claude 4 Sonnet73%
GPT-4o73%
Qwen2.5-VL-72B75%
Gemini 2.5 Pro72%

观察:推理模型(Opus / o3)优势明显——说明数学题图需要长思考,与模块四第 5 章”推理时 scaling”呼应。


四、文档/图表:DocVQA/ChartQA/OCRBench

4.1 DocVQA

特色:扫描文档(发票、表单、合同)QA。50000+ 文档。

SOTA:

模型DocVQA
Qwen2.5-VL-72B97%
Claude 4 Sonnet96%
GPT-4o92%
Gemini 2.5 Pro91%
InternVL3-78B95%

观察:Qwen2.5-VL 在文档 OCR 反超 GPT-4o ——开源 VLM 的标志性突破。

4.2 ChartQA

特色:数据图(柱状/折线/饼图)+ 数值问答。

SOTA:

模型ChartQA
Claude 4 Sonnet88%
Qwen2.5-VL-72B88%
GPT-4o86%
Gemini 2.5 Pro84%

4.3 OCRBench

专项 OCR 评测:1000 题,涵盖 5 类(text recognition、scene text、document、handwritten、table)。

SOTA:

模型OCRBench
Qwen2.5-VL-72B90%
InternVL3-78B88%
Claude 4 Sonnet88%
GPT-4o85%

观察:OCR / 文档场景已是开源 VLM 主战场 ——Qwen / InternVL 反超 GPT-4o。


五、视频:Video-MME 等

5.1 Video-MME

主页:https://video-mme.github.io

特色:

  • 900 个视频,30 类领域
  • 视频长度从 10s 到 1h 不等
  • 2700 道选择题
  • 评测视频理解 + 推理

SOTA(2026):

模型Video-MME(short/medium/long)
Gemini 2.5 Pro78%
Claude 4 Sonnet65%
GPT-4o71%
Qwen2.5-VL-72B73%
InternVL3-78B70%

观察:Gemini 在长视频上一骑绝尘 ——1M context 优势。

5.2 EgoSchema

特色:第一视角(egocentric)视频理解。VLM 短板 ——头部都不到 60%。

5.3 ActivityNet-QA

经典视频 QA,已饱和(头部 80%+)。

5.4 VideoChatGPT

5 维度评测(correctness/detail/contextual understanding/temporal/consistency),用 LLM-as-Judge 打分。


六、音频:VoiceBench 与 ASR/TTS 评测

6.1 VoiceBench

特色:专测音频指令理解(不是 ASR——是听完后能不能正确执行复杂指令)。

SOTA(2026,选关键 sub-task):

模型VoiceBench(综合)
GPT-4o Realtime80%
Gemini 2.0 Live75%
Qwen2.5-Omni-7B70%

6.2 ASR 评测(独立)

关键指标:WER(Word Error Rate),越低越好。

模型LibriSpeech (clean) WER
Whisper Large v31.8%
Voxtral(Mistral)1.5%
Qwen2.5-Audio2.1%
Google USM1.9%

6.3 TTS 评测

主观:MOS(Mean Opinion Score,1-5 人评)。 客观:UTMOS(自动 MOS 估计)、Speaker similarity、Mel cepstral distortion。

主流商业 TTS 中:

  • ElevenLabs ──MOS ~4.5 ⭐
  • OpenAI tts-1-hd ──MOS ~4.3
  • Google Wavenet ──MOS ~4.1

七、SOTA 全景排行榜

(2026-Q2,选关键 7 大 benchmark)

模型MMMUMathVistaDocVQAChartQAVideo-MMEVoiceBenchOCRBench
GPT-5 vision78%78%92%86%71%85%
Claude Opus 4.576%80%96%88%65%88%
Claude 4 Sonnet73%73%96%88%65%88%
GPT-4o75%73%92%86%71%80%85%
Gemini 2.5 Pro70%72%91%84%78%75%80%
Qwen2.5-VL-72B70%75%97%88%73%90%
InternVL3-78B71%73%95%87%70%88%
Qwen2.5-Omni-7B60%65%88%80%65%70%80%
LLaVA-OneVision-72B65%68%90%80%65%75%

解读:

  • MMMU 综合:GPT-5 / Claude Opus 4.5 领先(78/76%)
  • 数学推理:Claude Opus / o3 / GPT-5 压倒性领先 — 推理模型在 vision 也很强
  • OCR / 文档:Qwen2.5-VL 反超
  • 视频:Gemini 2.5 一骑绝尘
  • 音频对话:GPT-4o Realtime 第一

八、VLM Hallucination 与防御

8.1 VLM 幻觉的特殊性

VLM 比文本 LLM 更易幻觉:

类型例子
Object hallucination描述图中”有只猫”但其实没有
Attribute说”红色车”但车是蓝色
Counting说”3 个人”但只有 2 个
Relation说”A 在 B 左边”但相反
OCR error错读金额(99 → 90)

8.2 测幻觉的 benchmark

  • POPE(Polling-based Object Probing,arXiv 2305.10355)— 对每张图问”图中有 X 吗”,检测虚构物体
  • HallusionBench(arXiv 2310.14566)— 视觉幻觉 + 语言幻觉双重测
  • OCR-Hallucination(自 OCRBench 衍生)

8.3 防御策略

A. 视觉 Chain-of-Thought

让 VLM 先详细描述图片,再回答 — 强制它”看图”再”想”。

Prompt:
请分两步:
Step 1. 详细描述图片所有内容
Step 2. 基于上述描述回答问题:[问题]

研究显示能减少幻觉 30-50%。

B. Self-Consistency

多次采样,看是否一致。不一致 = 可能幻觉

C. Verifier

用另一个 VLM(可能不同家厂商)校验答案。

D. 显式 grounding

要求模型指出在图中哪里找到证据(给坐标 / 框)。


九、自建多模态 benchmark

如果你的领域(医疗 / 法律 / 工业 / 内部产品)需要专属评测:

9.1 数据收集

1. 从生产环境抽 200-500 个真实 case
2. 每个 case = (图 + 问题 + ground truth 答案)
3. 平衡难度(简单 / 中等 / 难)
4. 加 hallucination 测试题(故意问"图中没有的"东西)

9.2 评分方式

def evaluate(model, dataset):
    results = {'correct': 0, 'hallucination': 0, 'partial': 0}
    
    for item in dataset:
        answer = model(item.image, item.question)
        
        if item.answer_type == 'exact':
            if answer.strip() == item.gt:
                results['correct'] += 1
        elif item.answer_type == 'open':
            # 用 LLM-as-Judge(详见模块八)
            score = llm_judge(answer, item.gt, item.question)
            if score >= 0.8:
                results['correct'] += 1
            elif score >= 0.5:
                results['partial'] += 1
        elif item.answer_type == 'hallucination_check':
            # 题目是"图中是否有 X",X 实际不存在
            if 'no' in answer.lower() or 'not' in answer.lower():
                results['correct'] += 1
            else:
                results['hallucination'] += 1
    
    return results

9.3 工具支持

  • lmms-eval:开源多模态评测框架(类似 lm-eval-harness)
  • VLMEvalKit:OpenCompass 旗下,涵盖 30+ benchmark
  • LMMs-Lab:LLaVA 团队的评测工具

✅ 自我检验清单

  • 能说出多模态评测的 4 大独特挑战
  • 能解释 MMMU / MathVista / MMBench 各自定位
  • 能背出 2026 MMMU 头部 5 家数字
  • 能说出 Qwen2.5-VL 在哪些 benchmark 反超 GPT-4o
  • 能解释 Gemini 2.5 在视频上的优势
  • 能列出 VLM 5 类幻觉 + 4 种防御
  • 能给出自建多模态 benchmark 的步骤

📚 参考资料

Benchmark 论文

  • MMMU (arXiv 2311.16502)
  • MathVista (arXiv 2310.02255)
  • MMBench (arXiv 2307.06281)
  • DocVQA (arXiv 2007.00398)
  • ChartQA (arXiv 2203.10244)
  • Video-MME (arXiv 2405.21075)
  • POPE (arXiv 2305.10355)
  • HallusionBench (arXiv 2310.14566)
  • OCRBench (arXiv 2305.07895)

Leaderboards

评测框架

下一章:第5章 端到端实战 — 企业多模态助手(发票 OCR + 视频摘要 + 语音 bot 三场景),整合 Qwen2.5-VL + Whisper + GPT-4o Realtime。