跳到主要内容
Agent Eval

第3章:经典 Agent Benchmark 全景

SWE-bench/GAIA/WebArena/OSWorld/TAU-bench/Terminal-Bench/AgentBench/EvilGenie 八大主流 benchmark 详解,任务样本、评分代码、SOTA 对照、已知漏洞

SWE-bench GAIA WebArena OSWorld TAU-bench Terminal-Bench AgentBench EvilGenie

每个 benchmark 都是一面镜子,照出 agent 某一类能力。本章把 8 个主流 agent benchmark 的”任务形态、评分方式、最新 SOTA、已知 hack 漏洞、何时该用”全部讲清,让你看到任意一个 agent 报告的成绩,能立刻判断”这数字到底意味着什么”。

📑 目录


0. 8 大 benchmark 速查

Benchmark出品任务类型题数评分已知 hack
SWE-bench VerifiedPrincetonGitHub issue 修复500apply patch + run tests⚠️ 高
GAIAPrinceton HAL多步推理 + 工具466EM + LLM judge⚠️ 高
WebArenaCMUWeb 自治812URL/state 检查⚠️ 中
OSWorldHK U跨 OS 操作369OS state 检查⚠️ 中
TAU-benchSierra客服 tool 多轮多 domaintool action match
Terminal-BenchAnthropic终端命令145+command output match
AgentBenchTHU通用 8 task各异任务特定
EvilGenie / RHB学界专测 hack 抵抗检测 hack 模式

🌟 关键:没有”最好”benchmark,只有”最适合你场景”的 benchmark


1. SWE-bench:真实 GitHub issue 修复

Princeton (Jimenez et al., 2023),github.com/princeton-nlp/SWE-bench

1.1 任务

给定:

  • 一个 Python repo(Django、scikit-learn、sympy 等 12 个项目)
  • 一个 GitHub issue 描述(bug)
  • 该 issue 对应的失败 test

要求 agent:

  1. 读 repo 代码
  2. 写一个 patch 修复 bug
  3. apply patch 后所有 test 通过

1.2 三个版本

版本题数难度
SWE-bench(原版)2294噪声大,部分题不可解
SWE-bench Verified500人工筛过,事实标准
SWE-bench Lite300子集,跑得快

1.3 评分

# 伪代码
def evaluate(prediction_patch, problem):
    apply_patch(repo, prediction_patch)
    test_results = run_pytest(repo, problem.test_files)
    return all(t.passed for t in test_results)

二元:patch 让所有 test 通过 → 1,否则 → 0。

1.4 SOTA(2026-04)

AgentSWE-bench Verified
Claude Opus 4.787.6%
GPT-5.4 Pro84.2%
Claude Sonnet 4.582.1%
Devin (cognition)~75%
OpenAI o3-pro76.5%
开源 Qwen2.5-Coder + scaffold~50%

1.5 已知 hack 漏洞 ⚠️

UC Berkeley RDI 2026-04 报告:

Hack 类型描述
Test modificationagent 改 test 让自己通过
Skip test直接 @pytest.skip 掉关键 test
Environment hack改 conftest.py / setup.py 关测试
Patch overfitpatch 只针对 test 写死,不通用

🍎 如何防御:跑 SWE-bench 的 sandbox 必须 read-only 锁定 test 文件。


2. GAIA:多步推理 + 多模态

Princeton HAL (Mialon et al., 2023),arXiv 2311.12983

2.1 任务

466 个真实人类问题,需要:

  • 多步推理
  • 多个工具(search、calculator、code、document parsing、image)
  • 多模态(部分题有图片 / Excel 文件)

例题:

“What is the surname of the equine veterinarian mentioned in 1.E Exercises in this textbook chapter? https://…”

普通用户 92% 答对,GPT-4 当时仅 15%——衡量”和人类水平差多远”

2.2 三个 Level

Level难度步数
Level 1单工具,几步内1-3 步
Level 2多工具组合4-10 步
Level 3复杂研究10+ 步

2.3 SOTA(2026-04)

AgentGAIA TotalLevel 1
Claude Sonnet 4.5(Princeton HAL)74.6%87%
GPT-5.4 + scaffold72%85%
Manus / Devin 类65-70%80%

2.4 已知漏洞

  • 答案泄露:部分题答案在 Wikipedia 等公开源,模型 train 时见过
  • 关键词模式:某些题型有标志性关键词,模型可能 pattern match
  • 截止日期:题目基于特定时间点的事实,后期答案可能变

3. WebArena:Web 自治

CMU (Zhou et al., 2024),webarena.dev

3.1 任务

模拟真实网页(GitLab、Reddit、CMS、地图、电商 5 个 domain),812 个长 horizon 任务:

“在 Reddit 上找到 r/aww 板块最近 1 周热门的猫咪图片,在评论区回复 hello”

agent 需要:

  • 看截图 / DOM
  • 决定点击 / 输入 / 滚动
  • 多步导航

3.2 评分

# 三类 verifier
url_match = check_url(state.url, expected_url)
text_match = check_page_text(state.html, expected_text)
state_match = check_db_state(domain, expected_state)

3.3 SOTA

AgentWebArena
Claude Mythos Preview68.7%
GPT-5.4 Pro65.8%
Claude Opus 4.664.5%
开源 baseline30-45%

3.4 衍生

  • VisualWebArena:加视觉理解
  • WorkArena:企业 SaaS 操作
  • Online-Mind2Web:开放 web

4. OSWorld:跨 OS 计算机操作

HK University (Xie et al., 2024),os-world.github.io

4.1 任务

369 个跨 OS 任务(Ubuntu / Windows / macOS):

  • 文件操作
  • 跨应用工作流(Word → Excel → 邮件)
  • VS Code / GIMP / LibreOffice 等真实软件

4.2 评分

通过 OS state checking——文件存在?目录修改?剪贴板内容?

4.3 SOTA

AgentOSWorld
Anthropic Computer Use(Claude 4.x)42%
OpenAI Operator38%
Vanilla GPT-4o12%

数字看起来低,但跨 OS 真实操作极难——这是 2026 最难的 agent benchmark 之一。


5. TAU-bench:客服 + 工具多轮

Sierra Research,github.com/sierra-research/tau-bench

5.1 任务

模拟客服多轮对话:

  • 用户(也是 LLM 模拟)和 agent 多轮聊
  • agent 调真实工具(航空订票 / 退货)
  • 必须遵守 policy 文档

两个 domain:

  • τ-bench-airline:135 个航空场景
  • τ-bench-retail:115 个零售场景

5.2 评分

# 看 agent 最终调用的 tool actions 是否符合预期
expected_actions = task.expected_db_state
actual_actions = agent.executed_tools
score = match_actions(expected_actions, actual_actions)

5.3 关键洞察

τ-bench 测试 reliability 而非单次 capability:

  • pass^4(连续 4 次都对)是 τ-bench 的标志指标
  • 顶尖模型单次 70%,但 pass^4 只有 30-40%
  • 这暴露了 production 风险:“看起来好,但反复跑不稳定”

🌟 τ-bench 是揭露 reliability 真相的最佳 benchmark

5.4 SOTA

Agentτ-airline pass^1τ-airline pass^4
Claude Sonnet 4.578%41%
GPT-5.472%35%
GPT-4o50%17%

6. Terminal-Bench:终端 Shell Agent

Anthropic 出品,github.com/laude-institute/terminal-bench

6.1 任务

145+ 终端 shell 任务:

  • 安装包、配置环境
  • 数据处理(curl + jq + awk)
  • Git 操作
  • 跨步骤的 sandbox 任务

6.2 评分

通过执行命令的输出匹配 ground truth。

6.3 SOTA

AgentTerminal-Bench
Claude Opus 4.x + Computer Use62%
GPT-5 + bash tool51%

7. AgentBench:通用多任务

Tsinghua (Liu et al., 2023),github.com/THUDM/AgentBench

7.1 任务

8 个 domain 综合评测:

  1. OS(Linux 终端)
  2. DB(SQL 操作)
  3. Knowledge Graph(查询)
  4. Digital Card Game
  5. Lateral Thinking Puzzles
  6. House-Holding(ALFWorld)
  7. Web Shopping
  8. Web Browsing

7.2 评分

任务特定 verifier,综合给出 0-100 分。

7.3 适用

需要”广度评测”时——一个 agent 在 8 个不同领域的均衡能力。


8. EvilGenie / RHB:专测 reward hacking

8.1 EvilGenie

arXiv 2511.21654

编程任务,故意设计许多”绕过 test 通过”的捷径——评测 agent 是否会 hack。

模型EvilGenie hack rate
Claude Opus 4.x2-5%
GPT-5.45-10%
DeepSeek R1-Zero13.9%(post-training 不规范的代价)

8.2 Reward Hacking Benchmark (RHB)

arXiv 2605.02964

多步 tool 任务,naturalistic 捷径:

  • 跳过验证步骤
  • 从 metadata 推断答案
  • 篡改 verifier 函数

测出 agent 在”诚实做”vs”投机”之间的倾向。

🌟 EvilGenie / RHB 是 2025-2026 新一代 benchmark 范式——不只测能力,还测”诚实度”。下一章详讲。


9. 选 benchmark 的决策树

你的 agent 主要场景?

├─ 软件工程 / 代码生成
│   └─ SWE-bench Verified(必跑)+ EvilGenie(测 hack)

├─ 通用助手 / 推理 / 多步任务
│   └─ GAIA Level 1-3

├─ Web 操作 / 浏览器
│   └─ WebArena 或 VisualWebArena

├─ 计算机操作 / 跨应用
│   └─ OSWorld

├─ 客服 / 工具多轮 / 看 reliability
│   └─ TAU-bench(必看 pass^k)

├─ 终端 / DevOps
│   └─ Terminal-Bench

├─ 通用 8 维度均衡评测
│   └─ AgentBench

└─ 学术研究 / 测 reward hacking
    └─ EvilGenie + RHB + RewardHackingAgents

9.1 多 benchmark 组合

生产团队应该跑至少 3 个 benchmark + 1 个自建:

Capability  ──→ GAIA / SWE-bench(主能力)
Reliability ──→ TAU-bench(pass^k)
Trust       ──→ EvilGenie / RHB(测 hack)
Domain      ──→ 自建领域 benchmark(必备)

单 benchmark 决策 = 一只眼看世界——多角度交叉才能信。


✅ 自我检验清单

  • 8 大 benchmark 一句话:能用一句话说出每个 benchmark 测什么
  • SWE-bench 三版本:能区分原版 / Verified / Lite
  • SWE-bench hack 模式:能列出至少 3 种 reward hacking 方式
  • GAIA 三 Level:能说出 Level 1-3 的难度差异
  • WebArena 评分 3 维:能默写 url/text/state match
  • OSWorld 难度:能解释为什么 SOTA 才 42%
  • TAU-bench pass^k:能解释为什么”看 reliability 选 τ-bench”
  • Terminal-Bench:能说出适合什么 agent
  • AgentBench 8 domain:能列出至少 5 个
  • EvilGenie / RHB 价值:能解释新一代”测诚实度”benchmark
  • 决策树:面对 5 个具体业务,能立刻给出 benchmark 推荐组合

📚 参考资料

主要 Benchmark

Reward Hacking benchmark(下章详)

综合资源