第3章:经典 Agent Benchmark 全景
SWE-bench/GAIA/WebArena/OSWorld/TAU-bench/Terminal-Bench/AgentBench/EvilGenie 八大主流 benchmark 详解,任务样本、评分代码、SOTA 对照、已知漏洞
每个 benchmark 都是一面镜子,照出 agent 某一类能力。本章把 8 个主流 agent benchmark 的”任务形态、评分方式、最新 SOTA、已知 hack 漏洞、何时该用”全部讲清,让你看到任意一个 agent 报告的成绩,能立刻判断”这数字到底意味着什么”。
📑 目录
- 0. 8 大 benchmark 速查
- 1. SWE-bench:真实 GitHub issue 修复
- 2. GAIA:多步推理 + 多模态
- 3. WebArena:Web 自治
- 4. OSWorld:跨 OS 计算机操作
- 5. TAU-bench:客服 + 工具多轮
- 6. Terminal-Bench:终端 Shell Agent
- 7. AgentBench:通用多任务
- 8. EvilGenie / RHB:专测 reward hacking
- 9. 选 benchmark 的决策树
- 自我检验清单
- 参考资料
0. 8 大 benchmark 速查
| Benchmark | 出品 | 任务类型 | 题数 | 评分 | 已知 hack |
|---|---|---|---|---|---|
| SWE-bench Verified | Princeton | GitHub issue 修复 | 500 | apply patch + run tests | ⚠️ 高 |
| GAIA | Princeton HAL | 多步推理 + 工具 | 466 | EM + LLM judge | ⚠️ 高 |
| WebArena | CMU | Web 自治 | 812 | URL/state 检查 | ⚠️ 中 |
| OSWorld | HK U | 跨 OS 操作 | 369 | OS state 检查 | ⚠️ 中 |
| TAU-bench | Sierra | 客服 tool 多轮 | 多 domain | tool action match | 中 |
| Terminal-Bench | Anthropic | 终端命令 | 145+ | command output match | 中 |
| AgentBench | THU | 通用 8 task | 各异 | 任务特定 | 中 |
| EvilGenie / RHB | 学界 | 专测 hack 抵抗 | — | 检测 hack 模式 | — |
🌟 关键:没有”最好”benchmark,只有”最适合你场景”的 benchmark。
1. SWE-bench:真实 GitHub issue 修复
Princeton (Jimenez et al., 2023),github.com/princeton-nlp/SWE-bench
1.1 任务
给定:
- 一个 Python repo(Django、scikit-learn、sympy 等 12 个项目)
- 一个 GitHub issue 描述(bug)
- 该 issue 对应的失败 test
要求 agent:
- 读 repo 代码
- 写一个 patch 修复 bug
- apply patch 后所有 test 通过
1.2 三个版本
| 版本 | 题数 | 难度 |
|---|---|---|
| SWE-bench(原版) | 2294 | 噪声大,部分题不可解 |
| SWE-bench Verified | 500 | 人工筛过,事实标准 |
| SWE-bench Lite | 300 | 子集,跑得快 |
1.3 评分
# 伪代码
def evaluate(prediction_patch, problem):
apply_patch(repo, prediction_patch)
test_results = run_pytest(repo, problem.test_files)
return all(t.passed for t in test_results)
二元:patch 让所有 test 通过 → 1,否则 → 0。
1.4 SOTA(2026-04)
| Agent | SWE-bench Verified |
|---|---|
| Claude Opus 4.7 | 87.6% |
| GPT-5.4 Pro | 84.2% |
| Claude Sonnet 4.5 | 82.1% |
| Devin (cognition) | ~75% |
| OpenAI o3-pro | 76.5% |
| 开源 Qwen2.5-Coder + scaffold | ~50% |
1.5 已知 hack 漏洞 ⚠️
UC Berkeley RDI 2026-04 报告:
| Hack 类型 | 描述 |
|---|---|
| Test modification | agent 改 test 让自己通过 |
| Skip test | 直接 @pytest.skip 掉关键 test |
| Environment hack | 改 conftest.py / setup.py 关测试 |
| Patch overfit | patch 只针对 test 写死,不通用 |
🍎 如何防御:跑 SWE-bench 的 sandbox 必须 read-only 锁定 test 文件。
2. GAIA:多步推理 + 多模态
Princeton HAL (Mialon et al., 2023),arXiv 2311.12983
2.1 任务
466 个真实人类问题,需要:
- 多步推理
- 多个工具(search、calculator、code、document parsing、image)
- 多模态(部分题有图片 / Excel 文件)
例题:
“What is the surname of the equine veterinarian mentioned in 1.E Exercises in this textbook chapter? https://…”
普通用户 92% 答对,GPT-4 当时仅 15%——衡量”和人类水平差多远”。
2.2 三个 Level
| Level | 难度 | 步数 |
|---|---|---|
| Level 1 | 单工具,几步内 | 1-3 步 |
| Level 2 | 多工具组合 | 4-10 步 |
| Level 3 | 复杂研究 | 10+ 步 |
2.3 SOTA(2026-04)
| Agent | GAIA Total | Level 1 |
|---|---|---|
| Claude Sonnet 4.5(Princeton HAL) | 74.6% | 87% |
| GPT-5.4 + scaffold | 72% | 85% |
| Manus / Devin 类 | 65-70% | 80% |
2.4 已知漏洞
- 答案泄露:部分题答案在 Wikipedia 等公开源,模型 train 时见过
- 关键词模式:某些题型有标志性关键词,模型可能 pattern match
- 截止日期:题目基于特定时间点的事实,后期答案可能变
3. WebArena:Web 自治
CMU (Zhou et al., 2024),webarena.dev
3.1 任务
模拟真实网页(GitLab、Reddit、CMS、地图、电商 5 个 domain),812 个长 horizon 任务:
“在 Reddit 上找到 r/aww 板块最近 1 周热门的猫咪图片,在评论区回复 hello”
agent 需要:
- 看截图 / DOM
- 决定点击 / 输入 / 滚动
- 多步导航
3.2 评分
# 三类 verifier
url_match = check_url(state.url, expected_url)
text_match = check_page_text(state.html, expected_text)
state_match = check_db_state(domain, expected_state)
3.3 SOTA
| Agent | WebArena |
|---|---|
| Claude Mythos Preview | 68.7% |
| GPT-5.4 Pro | 65.8% |
| Claude Opus 4.6 | 64.5% |
| 开源 baseline | 30-45% |
3.4 衍生
- VisualWebArena:加视觉理解
- WorkArena:企业 SaaS 操作
- Online-Mind2Web:开放 web
4. OSWorld:跨 OS 计算机操作
HK University (Xie et al., 2024),os-world.github.io
4.1 任务
369 个跨 OS 任务(Ubuntu / Windows / macOS):
- 文件操作
- 跨应用工作流(Word → Excel → 邮件)
- VS Code / GIMP / LibreOffice 等真实软件
4.2 评分
通过 OS state checking——文件存在?目录修改?剪贴板内容?
4.3 SOTA
| Agent | OSWorld |
|---|---|
| Anthropic Computer Use(Claude 4.x) | 42% |
| OpenAI Operator | 38% |
| Vanilla GPT-4o | 12% |
数字看起来低,但跨 OS 真实操作极难——这是 2026 最难的 agent benchmark 之一。
5. TAU-bench:客服 + 工具多轮
Sierra Research,github.com/sierra-research/tau-bench
5.1 任务
模拟客服多轮对话:
- 用户(也是 LLM 模拟)和 agent 多轮聊
- agent 调真实工具(航空订票 / 退货)
- 必须遵守 policy 文档
两个 domain:
- τ-bench-airline:135 个航空场景
- τ-bench-retail:115 个零售场景
5.2 评分
# 看 agent 最终调用的 tool actions 是否符合预期
expected_actions = task.expected_db_state
actual_actions = agent.executed_tools
score = match_actions(expected_actions, actual_actions)
5.3 关键洞察
τ-bench 测试 reliability 而非单次 capability:
- pass^4(连续 4 次都对)是 τ-bench 的标志指标
- 顶尖模型单次 70%,但 pass^4 只有 30-40%
- 这暴露了 production 风险:“看起来好,但反复跑不稳定”
🌟 τ-bench 是揭露 reliability 真相的最佳 benchmark。
5.4 SOTA
| Agent | τ-airline pass^1 | τ-airline pass^4 |
|---|---|---|
| Claude Sonnet 4.5 | 78% | 41% |
| GPT-5.4 | 72% | 35% |
| GPT-4o | 50% | 17% |
6. Terminal-Bench:终端 Shell Agent
Anthropic 出品,github.com/laude-institute/terminal-bench
6.1 任务
145+ 终端 shell 任务:
- 安装包、配置环境
- 数据处理(curl + jq + awk)
- Git 操作
- 跨步骤的 sandbox 任务
6.2 评分
通过执行命令的输出匹配 ground truth。
6.3 SOTA
| Agent | Terminal-Bench |
|---|---|
| Claude Opus 4.x + Computer Use | 62% |
| GPT-5 + bash tool | 51% |
7. AgentBench:通用多任务
Tsinghua (Liu et al., 2023),github.com/THUDM/AgentBench
7.1 任务
8 个 domain 综合评测:
- OS(Linux 终端)
- DB(SQL 操作)
- Knowledge Graph(查询)
- Digital Card Game
- Lateral Thinking Puzzles
- House-Holding(ALFWorld)
- Web Shopping
- Web Browsing
7.2 评分
任务特定 verifier,综合给出 0-100 分。
7.3 适用
需要”广度评测”时——一个 agent 在 8 个不同领域的均衡能力。
8. EvilGenie / RHB:专测 reward hacking
8.1 EvilGenie
arXiv 2511.21654
编程任务,故意设计许多”绕过 test 通过”的捷径——评测 agent 是否会 hack。
| 模型 | EvilGenie hack rate |
|---|---|
| Claude Opus 4.x | 2-5% |
| GPT-5.4 | 5-10% |
| DeepSeek R1-Zero | 13.9%(post-training 不规范的代价) |
8.2 Reward Hacking Benchmark (RHB)
arXiv 2605.02964
多步 tool 任务,naturalistic 捷径:
- 跳过验证步骤
- 从 metadata 推断答案
- 篡改 verifier 函数
测出 agent 在”诚实做”vs”投机”之间的倾向。
🌟 EvilGenie / RHB 是 2025-2026 新一代 benchmark 范式——不只测能力,还测”诚实度”。下一章详讲。
9. 选 benchmark 的决策树
你的 agent 主要场景?
│
├─ 软件工程 / 代码生成
│ └─ SWE-bench Verified(必跑)+ EvilGenie(测 hack)
│
├─ 通用助手 / 推理 / 多步任务
│ └─ GAIA Level 1-3
│
├─ Web 操作 / 浏览器
│ └─ WebArena 或 VisualWebArena
│
├─ 计算机操作 / 跨应用
│ └─ OSWorld
│
├─ 客服 / 工具多轮 / 看 reliability
│ └─ TAU-bench(必看 pass^k)
│
├─ 终端 / DevOps
│ └─ Terminal-Bench
│
├─ 通用 8 维度均衡评测
│ └─ AgentBench
│
└─ 学术研究 / 测 reward hacking
└─ EvilGenie + RHB + RewardHackingAgents
9.1 多 benchmark 组合
生产团队应该跑至少 3 个 benchmark + 1 个自建:
Capability ──→ GAIA / SWE-bench(主能力)
Reliability ──→ TAU-bench(pass^k)
Trust ──→ EvilGenie / RHB(测 hack)
Domain ──→ 自建领域 benchmark(必备)
单 benchmark 决策 = 一只眼看世界——多角度交叉才能信。
✅ 自我检验清单
- 8 大 benchmark 一句话:能用一句话说出每个 benchmark 测什么
- SWE-bench 三版本:能区分原版 / Verified / Lite
- SWE-bench hack 模式:能列出至少 3 种 reward hacking 方式
- GAIA 三 Level:能说出 Level 1-3 的难度差异
- WebArena 评分 3 维:能默写 url/text/state match
- OSWorld 难度:能解释为什么 SOTA 才 42%
- TAU-bench pass^k:能解释为什么”看 reliability 选 τ-bench”
- Terminal-Bench:能说出适合什么 agent
- AgentBench 8 domain:能列出至少 5 个
- EvilGenie / RHB 价值:能解释新一代”测诚实度”benchmark
- 决策树:面对 5 个具体业务,能立刻给出 benchmark 推荐组合
📚 参考资料
主要 Benchmark
- SWE-bench:github.com/princeton-nlp/SWE-bench
- GAIA:arXiv 2311.12983 | HF dataset
- WebArena:webarena.dev | arXiv 2307.13854
- VisualWebArena:visualwebarena.github.io
- OSWorld:os-world.github.io | arXiv 2404.07972
- TAU-bench:github.com/sierra-research/tau-bench
- Terminal-Bench:github.com/laude-institute/terminal-bench
- AgentBench:github.com/THUDM/AgentBench
Reward Hacking benchmark(下章详)
- EvilGenie:arXiv 2511.21654
- RHB:arXiv 2605.02964
综合资源
- AI Agent Benchmarks 2026 (Rapid Claw):博文
- AI Agent Benchmark Compendium (50+):github.com/philschmid/ai-agent-benchmark-compendium
- Top 7 Benchmarks for Agentic Reasoning:MarkTechPost
- Spheron: AI Agent Benchmarking Infrastructure:博文