📏 Agent Eval 9 篇文章 · 9 个章节

模块八：Agent Evaluation & Benchmarks

系统讲解怎么客观判断一个 Agent 好不好：多维度评估框架、SWE-bench/GAIA/WebArena/OSWorld/TAU-bench 等经典 benchmark、LLM-as-Judge 方法论、Reward Hacking 防御（含 UC Berkeley 2026-04 大事件）、DeepEval/Phoenix/Promptfoo 等评测框架对比、自建领域 benchmark、CI/CD 集成与端到端实战。

开始学习

章节目录

1 第1章：Agent Evaluation 的独特挑战

传统 ML eval 为什么不够用,Agent 评测的 5 个核心难题,多维度评估的必要性

2 第2章：评测的多维度框架 —— Capability/Reliability/Safety/Cost/Latency

Multi-Dimensional Framework 详解,5 大维度指标体系,Pass@k vs Pass^k,Tier 0-3 评测层级,评测金字塔

3 第3章：经典 Agent Benchmark 全景

SWE-bench/GAIA/WebArena/OSWorld/TAU-bench/Terminal-Bench/AgentBench/EvilGenie 八大主流 benchmark 详解,任务样本、评分代码、SOTA 对照、已知漏洞

4 第4章：LLM-as-Judge 方法论 —— G-Eval、Bias 与校准

LLM-as-Judge 三种范式、G-Eval 评分细则、4 类已知 bias(position/verbosity/self-preference/token)、校准方法、何时该用何时该避

5 第5章：Reward Hacking 与 Trustworthy Eval ⭐

UC Berkeley 2026-04 大事件 + 5 篇 reward hacking benchmark 论文精读 + Reward Hacking as Equilibrium 理论 + 工业防御工具箱

6 第6章：评测框架对比 —— DeepEval/Promptfoo/Phoenix/LangSmith/Braintrust/MLflow/RAGAS

8 个主流 LLM/Agent 评测框架横评,设计哲学、能力矩阵、最简代码、CI/CD vs 观察平台双栈策略

7 第7章：自建领域 Benchmark

为什么公开 benchmark 不够,5 步法自建领域 benchmark,防老化、防 hacking、隐私合规、跨团队 leaderboard

8 第8章：CI/CD 与回归测试 —— 把 Eval 变成 Pre-merge Gate

GitHub Actions + DeepEval 完整 workflow,性能门禁规则,A/B 测试,Canary 灰度,Production drift 检测,Eval-as-Code

9 第9章：端到端实战 —— 跑 5 大 Benchmark + Reward Hacking 检测

完整可跑实战:同一个 agent 跑 GAIA / SWE-bench Lite / TAU-bench / WebArena / 自建 benchmark,DeepEval+Phoenix 双栈,多维度对比报告 + reward hacking 扫描

学习建议

前置要求

Agent Runtime（模块六）+ Agentic RL（模块七）+ 评测方法论基础

第 5 章 Reward Hacking 是 2026 年 agent eval 的灵魂——必读
建议先完成模块七 Agentic RL，理解 verifier 设计后再进入 eval 视角
端到端实战会跑 5 大 benchmark，建议先用 GAIA Level 1 + 自建 benchmark 起步

模块八：Agent Evaluation & Benchmarks

章节目录

学习建议

前置要求

搜索