📏 Agent Eval 9 篇文章 · 9 个章节
模块八:Agent Evaluation & Benchmarks
系统讲解怎么客观判断一个 Agent 好不好:多维度评估框架、SWE-bench/GAIA/WebArena/OSWorld/TAU-bench 等经典 benchmark、LLM-as-Judge 方法论、Reward Hacking 防御(含 UC Berkeley 2026-04 大事件)、DeepEval/Phoenix/Promptfoo 等评测框架对比、自建领域 benchmark、CI/CD 集成与端到端实战。
开始学习章节目录
传统 ML eval 为什么不够用,Agent 评测的 5 个核心难题,多维度评估的必要性
Multi-Dimensional Framework 详解,5 大维度指标体系,Pass@k vs Pass^k,Tier 0-3 评测层级,评测金字塔
SWE-bench/GAIA/WebArena/OSWorld/TAU-bench/Terminal-Bench/AgentBench/EvilGenie 八大主流 benchmark 详解,任务样本、评分代码、SOTA 对照、已知漏洞
LLM-as-Judge 三种范式、G-Eval 评分细则、4 类已知 bias(position/verbosity/self-preference/token)、校准方法、何时该用何时该避
UC Berkeley 2026-04 大事件 + 5 篇 reward hacking benchmark 论文精读 + Reward Hacking as Equilibrium 理论 + 工业防御工具箱
8 个主流 LLM/Agent 评测框架横评,设计哲学、能力矩阵、最简代码、CI/CD vs 观察平台双栈策略
为什么公开 benchmark 不够,5 步法自建领域 benchmark,防老化、防 hacking、隐私合规、跨团队 leaderboard
GitHub Actions + DeepEval 完整 workflow,性能门禁规则,A/B 测试,Canary 灰度,Production drift 检测,Eval-as-Code
完整可跑实战:同一个 agent 跑 GAIA / SWE-bench Lite / TAU-bench / WebArena / 自建 benchmark,DeepEval+Phoenix 双栈,多维度对比报告 + reward hacking 扫描
学习建议
前置要求
Agent Runtime(模块六)+ Agentic RL(模块七)+ 评测方法论基础
- 第 5 章 Reward Hacking 是 2026 年 agent eval 的灵魂——必读
- 建议先完成模块七 Agentic RL,理解 verifier 设计后再进入 eval 视角
- 端到端实战会跑 5 大 benchmark,建议先用 GAIA Level 1 + 自建 benchmark 起步