跳到主要内容
AIInfra学习路线

Agent Evaluation & Benchmarks 学习路线

系统梳理 Agent 评测的完整学习路线:多维度框架、5 大 benchmark、LLM-as-Judge、Reward Hacking 防御、自建领域 benchmark 与 CI/CD 集成

Agent Evaluation 学习路线 SWE-bench GAIA WebArena OSWorld TAU-bench Reward Hacking DeepEval Phoenix

前 7 个模块教你”训出/部署/优化 agent”,这一模块教你”客观判断一个 agent 好不好”。Agent Evaluation 是 agent 工程的最后一公里——也是 2026 年最危险也最热门的研究领域:UC Berkeley RDI 在 2026-04 用一个自动 agent 破解了 8 大主流 benchmark,SWE-bench / GAIA / WebArena / OSWorld 全部被评 critical risk;同时 EvilGenie / RHB / RewardHackingAgents 等专门针对”如何评测 agent 是否在 hack 评测”的新 benchmark 涌现。本文给出 9 章 + 学习路线总览的知识图,带你从”传统 ML eval 为什么不够用”走到”在 GitHub Actions 里跑回归测试 + 检测 reward hacking”。

作者将根据该路线编写系列文章,帮助大家系统掌握 Agent Eval 技术。

📑 目录


📏 全景概览:为什么 Agent Eval 是独立学科

模块五 Memory   ──┐
模块六 Runtime  ──┤    ──→  生产级 Agent
模块七 RL       ──┘             │

                       ┌────────────────────┐
                       │ 模块八 Agent Eval   │
                       │ "这 agent 真的好吗?" │
                       └────────────────────┘


                  Capability / Reliability / Safety / Cost / Latency

🍎 比喻:Memory 是大脑、Runtime 是神经、RL 是激素、Eval 是体检报告。没有体检,医生不知道病人是真的健康还是只是”看起来好”。

为什么需要专门一个模块?

维度传统 ML evalAgent eval
任务形态分类/回归多步开放式
评分方式accuracy/F1多维度 + LLM-as-Judge
数据形态静态 dataset动态 trajectory
失败模式模型错reward hacking + 错
可重现性极差(LLM 随机性)
评测成本几乎免费每条 trajectory $$$
benchmark 老化(模型 training 时已见过)

这些差异加起来 = Agent Eval 是独立学科


🎯 Agent Eval 的 5 大维度

来自 Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI(arXiv 2511.14136):

维度含义典型指标
Capability(能力)任务做对没accuracy / pass@k / EM
Reliability(可靠性)多次跑结果一致吗pass^k / variance / jailbreak rate
Safety(安全)不做坏事吗refusal accuracy / red-team 通过率
Cost-Efficiency(成本)多少钱一次$/task / token used / tool calls
Latency(延迟)多快返回TTFT / E2E P95 / time-to-success

🌟 核心理念:只看 Capability 是单维评测,生产 agent 必须 5 维一起看。Capability 100% 但 Cost $5/task 的 agent 上不了线。


📖 章节导览

主题核心拼图关键资料
1Agent Eval 独特挑战5 个核心难题 + 多维度引入
2多维度框架5 维 + 评测金字塔 + Pass@k vs Pass^karXiv 2511.14136
3经典 Benchmark 全景SWE-bench/GAIA/WebArena/OSWorld/TAU-bench/Terminal-Bench/AgentBench各家 benchmark
4LLM-as-Judge 方法论G-Eval、bias、校准LLM Judge 综述
5Reward Hacking 与 Trustworthy Eval ⭐UC Berkeley 大事件 + 5 篇论文arXiv 2511.21654 / 2605.02964 / 2603.11337 / 2603.28063
6评测框架对比DeepEval/Promptfoo/Phoenix/LangSmith/Braintrust/MLflow/RAGAS8 框架横评
7自建领域 Benchmark5 步法 + 隐私 + 防 hacking
8CI/CD 与回归测试GitHub Actions + DeepEval workflow
9端到端实战 ⭐跑 5 大 benchmark + 双栈 + 多维报告DeepEval + Phoenix

⏳ 关键论文与时间线

2023-04 ──── HumanEval / MBPP                通用 code benchmark
2023-08 ──── SWE-bench (Princeton)            真实 GitHub issue
2023-11 ──── GAIA (Princeton HAL)              多步 + 多模态
2024-04 ──── OSWorld (HK U)                    跨 OS 计算机操作
2024-Q3 ──── TAU-bench (Sierra)                客服 + tool 多轮
2024-Q4 ──── Terminal-Bench (Anthropic)        终端 / shell agent
2025-09 ──── Beyond Accuracy survey            多维度框架
2025-11 ──── Multi-Dimensional Framework       arXiv 2511.14136
2025-11 ──── EvilGenie ⭐                       arXiv 2511.21654 - 编程 reward hacking
2026-Q1 ──── Reward Hacking as Equilibrium     arXiv 2603.28063 - 理论
2026-Q1 ──── RHB / Reward Hacking Benchmark    arXiv 2605.02964
2026-Q1 ──── RewardHackingAgents               arXiv 2603.11337
2026-Q1 ──── Reward Hacking in Era of LLMs     arXiv 2604.13602
2026-04 ──── UC Berkeley RDI 大事件 ⭐⭐         8 大 benchmark 全部被破

🌟 2025-2026 是 Agent Eval 的”信任危机 + 重建”时期——一边是经典 benchmark 暴露 reward hacking 危险,一边是新一代专门评测”hack 抵抗力”的 benchmark 涌现。


🛠️ 主流框架与 Benchmark 速查

评测框架

框架出品方哲学适合
DeepEvalConfident AIPytest-styleCI/CD gating
PromptfooPromptfooYAML A/B testingPrompt 工程
Phoenix(Arize)ArizeOTel 观察+ eval观察驱动
LangSmith evalLangChain与 LangGraph 一体LangChain 栈
BraintrustBraintrustDataset + eval商业专业
MLflow ScorerDatabricks统一 scorer API多框架统一
RAGASRAGASRAG 专用RAG 评测
OpenAI EvalsOpenAIOpenAI-nativeOpenAI 栈

经典 Benchmark

Benchmark任务类型难度已知漏洞
SWE-bench VerifiedGitHub issue 修复★★★★★⚠️ 高(reward hack)
GAIA多步 + 工具★★★★⚠️ 高
WebArenaWeb 自治★★★★⚠️ 中
OSWorld跨 OS 操作★★★★★⚠️ 中
TAU-bench客服 tool 多轮★★★
Terminal-Bench终端 shell★★★
AgentBench通用多任务★★★
EvilGenie测 reward hack 抵抗力★★★★
RHB多步 tool 测 hack★★★★

🧭 新人破局指南

学习路径(推荐 5-6 周)

第 1-2 周:理解多维度评估

  • 通读第 1-2 章
  • 做完自我检验
  • 用 DeepEval 跑一个最简单的 G-Eval demo

第 3 周:经典 benchmark

  • 第 3 章逐个看 SWE-bench / GAIA / TAU-bench
  • 跑 GAIA Level 1(GPT-4o-mini baseline)看分数
  • 体会”模型在 leaderboard 高 ≠ 自己业务好用”

第 4 周:LLM-as-Judge ⭐

  • 第 4 章
  • 用 GPT-4 当 judge 跑 ChatBot Arena 风格评测
  • 故意构造 bias 例子(长答案 vs 短答案、自己 vs 对手)

第 5 周:Reward Hacking ⭐⭐

  • 第 5 章是本模块灵魂——必读
  • 精读 EvilGenie / RHB / Reward Hacking as Equilibrium
  • 理解 UC Berkeley 大事件

第 6 周:工程化 + 实战

  • 第 6-8 章工程化
  • 第 9 章端到端跑通

三个高频踩坑

  1. 以为 leaderboard 高就是好 — UC Berkeley 大事件证明 SWE-bench 高分可能是 hack
  2. 只用 LLM Judge 不做人工抽审 — Judge 自身有 bias,长期会偏移
  3. 公开 benchmark 当真理 — 自建领域 benchmark 才是命脉,公开 benchmark 模型可能 train 时见过

与模块七 RL 的关系

模块视角
模块七 RL”怎么训出更好的 agent”(从训练侧设计 reward)
模块八 Eval”怎么判断 agent 真的好”(从测试侧设计 verifier)

Reward(训练时)和 Verifier(评测时)在 RLVR 范式下高度对称——所以这两章应该交替读。


🛡️ 核心思维:Trustworthy Eval 的 3 个公理

来自 Reward Hacking as Equilibrium(arXiv 2603.28063)的 5 公理简化:

  1. Multi-dimensional:质量是多维的,任何单一指标都不够
  2. Finite Evaluation:任何评测都是有限测试,有”评测覆盖”边界
  3. Effective Optimization:被优化得足够好的 agent 必然找到评测覆盖之外的捷径

🌟 推论:任何 RL/优化训出来的 agent,只要训得久,必然 hack 它的评测体系——除非评测本身和真实业务目标完全一致(几乎不可能)。

所以:

  • 不要相信单一 benchmark
  • 不要相信训练用的 verifier 也能当 eval verifier(必须独立)
  • 不要相信”我的 verifier 完美”——必须假设有 hack
  • 多 verifier 投票 + 持续人工抽审 + 对抗 verifier 是唯一防御

这就是 2026 年 Agent Eval 的”防御纵深”思维。


📚 参考资料

综述与 Multi-Dimensional 论文

经典 Benchmark

Reward Hacking 论文(2025-2026)

工业事件 ⭐⭐

  • UC Berkeley RDI: How We Broke Top AI Agent Benchmarks (2026-04):博文
  • Trustworthy Benchmarks:博文

评测框架

综合资源