Agent Evaluation & Benchmarks 学习路线

前 7 个模块教你”训出/部署/优化 agent”,这一模块教你”客观判断一个 agent 好不好”。Agent Evaluation 是 agent 工程的最后一公里——也是 2026 年最危险也最热门的研究领域:UC Berkeley RDI 在 2026-04 用一个自动 agent 破解了 8 大主流 benchmark,SWE-bench / GAIA / WebArena / OSWorld 全部被评 critical risk;同时 EvilGenie / RHB / RewardHackingAgents 等专门针对”如何评测 agent 是否在 hack 评测”的新 benchmark 涌现。本文给出 9 章 + 学习路线总览的知识图,带你从”传统 ML eval 为什么不够用”走到”在 GitHub Actions 里跑回归测试 + 检测 reward hacking”。

作者将根据该路线编写系列文章,帮助大家系统掌握 Agent Eval 技术。

📏 全景概览:为什么 Agent Eval 是独立学科

模块五 Memory   ──┐
模块六 Runtime  ──┤    ──→  生产级 Agent
模块七 RL       ──┘             │
                                  ▼
                       ┌────────────────────┐
                       │ 模块八 Agent Eval   │
                       │ "这 agent 真的好吗?" │
                       └────────────────────┘
                                  │
                                  ▼
                  Capability / Reliability / Safety / Cost / Latency

🍎 比喻:Memory 是大脑、Runtime 是神经、RL 是激素、Eval 是体检报告。没有体检,医生不知道病人是真的健康还是只是”看起来好”。

为什么需要专门一个模块?

维度	传统 ML eval	Agent eval
任务形态	分类/回归	多步开放式
评分方式	accuracy/F1	多维度 + LLM-as-Judge
数据形态	静态 dataset	动态 trajectory
失败模式	模型错	reward hacking + 错
可重现性	高	极差(LLM 随机性)
评测成本	几乎免费	每条 trajectory $$$
benchmark 老化	慢	快(模型 training 时已见过)

这些差异加起来 = Agent Eval 是独立学科。

🎯 Agent Eval 的 5 大维度

来自 Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI(arXiv 2511.14136):

维度	含义	典型指标
Capability(能力)	任务做对没	accuracy / pass@k / EM
Reliability(可靠性)	多次跑结果一致吗	pass^k / variance / jailbreak rate
Safety(安全)	不做坏事吗	refusal accuracy / red-team 通过率
Cost-Efficiency(成本)	多少钱一次	$/task / token used / tool calls
Latency(延迟)	多快返回	TTFT / E2E P95 / time-to-success

🌟 核心理念:只看 Capability 是单维评测,生产 agent 必须 5 维一起看。Capability 100% 但 Cost $5/task 的 agent 上不了线。

📖 章节导览

章	主题	核心拼图	关键资料
1	Agent Eval 独特挑战	5 个核心难题 + 多维度引入	—
2	多维度框架	5 维 + 评测金字塔 + Pass@k vs Pass^k	arXiv 2511.14136
3	经典 Benchmark 全景	SWE-bench/GAIA/WebArena/OSWorld/TAU-bench/Terminal-Bench/AgentBench	各家 benchmark
4	LLM-as-Judge 方法论	G-Eval、bias、校准	LLM Judge 综述
5	Reward Hacking 与 Trustworthy Eval ⭐	UC Berkeley 大事件 + 5 篇论文	arXiv 2511.21654 / 2605.02964 / 2603.11337 / 2603.28063
6	评测框架对比	DeepEval/Promptfoo/Phoenix/LangSmith/Braintrust/MLflow/RAGAS	8 框架横评
7	自建领域 Benchmark	5 步法 + 隐私 + 防 hacking	—
8	CI/CD 与回归测试	GitHub Actions + DeepEval workflow	—
9	端到端实战 ⭐	跑 5 大 benchmark + 双栈 + 多维报告	DeepEval + Phoenix

⏳ 关键论文与时间线

2023-04 ──── HumanEval / MBPP                通用 code benchmark
2023-08 ──── SWE-bench (Princeton)            真实 GitHub issue
2023-11 ──── GAIA (Princeton HAL)              多步 + 多模态
2024-04 ──── OSWorld (HK U)                    跨 OS 计算机操作
2024-Q3 ──── TAU-bench (Sierra)                客服 + tool 多轮
2024-Q4 ──── Terminal-Bench (Anthropic)        终端 / shell agent
2025-09 ──── Beyond Accuracy survey            多维度框架
2025-11 ──── Multi-Dimensional Framework       arXiv 2511.14136
2025-11 ──── EvilGenie ⭐                       arXiv 2511.21654 - 编程 reward hacking
2026-Q1 ──── Reward Hacking as Equilibrium     arXiv 2603.28063 - 理论
2026-Q1 ──── RHB / Reward Hacking Benchmark    arXiv 2605.02964
2026-Q1 ──── RewardHackingAgents               arXiv 2603.11337
2026-Q1 ──── Reward Hacking in Era of LLMs     arXiv 2604.13602
2026-04 ──── UC Berkeley RDI 大事件 ⭐⭐         8 大 benchmark 全部被破

🌟 2025-2026 是 Agent Eval 的”信任危机 + 重建”时期——一边是经典 benchmark 暴露 reward hacking 危险,一边是新一代专门评测”hack 抵抗力”的 benchmark 涌现。

🛠️ 主流框架与 Benchmark 速查

评测框架

框架	出品方	哲学	适合
DeepEval	Confident AI	Pytest-style	CI/CD gating
Promptfoo	Promptfoo	YAML A/B testing	Prompt 工程
Phoenix(Arize)	Arize	OTel 观察+ eval	观察驱动
LangSmith eval	LangChain	与 LangGraph 一体	LangChain 栈
Braintrust	Braintrust	Dataset + eval	商业专业
MLflow Scorer	Databricks	统一 scorer API	多框架统一
RAGAS	RAGAS	RAG 专用	RAG 评测
OpenAI Evals	OpenAI	OpenAI-native	OpenAI 栈

经典 Benchmark

Benchmark	任务类型	难度	已知漏洞
SWE-bench Verified	GitHub issue 修复	★★★★★	⚠️ 高(reward hack)
GAIA	多步 + 工具	★★★★	⚠️ 高
WebArena	Web 自治	★★★★	⚠️ 中
OSWorld	跨 OS 操作	★★★★★	⚠️ 中
TAU-bench	客服 tool 多轮	★★★	中
Terminal-Bench	终端 shell	★★★	中
AgentBench	通用多任务	★★★	中
EvilGenie ⭐	测 reward hack 抵抗力	★★★★	—
RHB ⭐	多步 tool 测 hack	★★★★	—