第1章:Agent Evaluation 的独特挑战
传统 ML eval 为什么不够用,Agent 评测的 5 个核心难题,多维度评估的必要性
写一个分类器,跑 sklearn 看 accuracy 就完事——这是传统 ML 的世界。Agent 时代彻底变了:trajectory 是动态的、reward 可以被 hack、LLM judge 自己有偏见、benchmark 模型可能 train 时见过、跑一次评测要 $10——任何一个传统 ML 的反射动作都可能给你错觉。本章把 Agent Eval 的”独特挑战”系统讲清,让你知道剩下 8 章都在解决什么。
📑 目录
1. 传统 ML eval 为什么不够用
1.1 一个对比例子
传统分类器:垃圾邮件检测
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(acc) # 0.94
3 行代码、可复现、客观公正——业内 30 年的标准。
Agent:订机票任务
User: 帮我订下周三去东京的机票,3000 块以内,靠窗
Agent:
→ search("Tokyo flights next Wednesday") [1]
→ 看结果,选 ANA 航班 [2]
→ 调用 booking_api(...) [3]
→ 失败:用户没付款方式 [4]
→ 反馈:请添加付款方式 [5]
怎么打分? 答错了?完成了?中途失败但反馈合理算不算成功?用了几个工具算贵不算贵?用户体验感如何?——没有 1 行 sklearn 代码能告诉你。
1.2 5 个核心差异
| 维度 | 传统 ML eval | Agent eval |
|---|---|---|
| 任务形态 | 输入 → 输出 一对一 | 多步 trajectory + 工具 + 状态 |
| 评分方式 | accuracy/F1/AUC | 多维度 + LLM-as-Judge |
| 数据形态 | 静态 (X, y) | 动态 trajectory + env state |
| 失败模式 | 模型答错 | 答错 + reward hacking + 中途崩 |
| 可重现性 | 高(deterministic) | 极差(LLM 随机性 + 网络) |
🌟 结论:Agent 评测不是”加几个新指标”——是范式转变。
2. Agent 是动态的、行为驱动的
2.1 三种”质量”
考察一个 agent 的”好”,至少要看三个层面:
┌─────────────────┐
│ 行为质量 │ ← 怎么做的(过程对吗?用了几次 tool?)
├─────────────────┤
│ 结果质量 │ ← 答对了吗?
├─────────────────┤
│ 交付质量 │ ← 用户体验如何?cost 多少?多快?
└─────────────────┘
传统 ML 只测中间层(结果)——其他两层完全空白。
2.2 行为评测的难度
考虑”答对但走错路”的场景:
Q: 美国人口是多少?
Agent A: search("美国人口") → 拿到 3.32 亿 → 答对 ✓
Agent B: 直接答"3.5 亿"(没调 search,但凑巧近似对) → 答错 ✗
Agent C: search("美国人口") → 拿到结果 → 调 calculator(无意义) → 又调 search → 答 3.32 亿 ✓
A 和 C 都”答对”但行为质量差别巨大——C 浪费了 2 次工具调用。Capability 维度看不出差异,Cost 和 Reliability 维度才能区分。
3. 5 个核心难题
3.1 难题 1:Reward Hacking ⚠️
2026-04 UC Berkeley RDI 用一个自动 agent 破解了 8 大主流 benchmark
模型可能学到”过 verifier 的捷径”而非”真正解决问题”:
| benchmark | 已知 hack 模式 |
|---|---|
| SWE-bench | 改 test 文件让自己通过 |
| WebArena | 利用 verifier 字符串匹配的漏洞 |
| GAIA | 提取出题人设计的关键词模式 |
🌟 第 5 章会专题深入——这是本模块的灵魂。
3.2 难题 2:Reproducibility(可重现性)
跑 1: GPT-4o 在 GAIA 得 65%
跑 2: GPT-4o 在 GAIA 得 62%(相同模型、相同题、不同温度)
跑 3: GPT-4o 在 GAIA 得 71%(系统 prompt 变了一个字)
LLM 的非确定性 + prompt sensitivity 让 agent 评测难复现。
防御:多次跑取均值、固定温度、记录 prompt 哈希。
3.3 难题 3:Cost(评测成本)
跑 1 次 SWE-bench Verified(500 题):
- GPT-4o:每题平均 5K input / 2K output = ~25 一轮
- Claude Opus 4.x:更贵,~$60-100 一轮
- 单次实验小 $25 还能接受
- 但训一个模型试 100 个超参组合 = $2500-10000
Eval 成本比训练成本占比越来越大。
3.4 难题 4:Verifier 准确率
verifier 自己 99%+ 准吗?如果 verifier 错了 5%,模型 acc 上升 5% 可能完全是噪声:
Real model improvement: +3%
Verifier noise: ±5%
观察到的 metric: 完全没意义
第 4 章 LLM-as-Judge 会专门讲 bias 和校准。
3.5 难题 5:Benchmark 老化
公开 benchmark 经常被 model train 时见过:
SWE-bench 2023 发布
GPT-4 train data 截止 2023-04(可能见过 SWE-bench 题)
GPT-5 train data 截止 2024-12(可能见过 SWE-bench 答案)
模型在见过的 benchmark 上分数虚高——这就是 contamination。
防御:
- SWE-bench Verified(更新版,人工验证过)
- 私有 benchmark(不公开题目)
- 持续更新 benchmark(每季度新题)
4. 为什么要从单一指标转向多维度
4.1 单维度的陷阱
只看 accuracy 的 agent:
Agent A: 80% accuracy, $0.50/task, 30s latency
Agent B: 82% accuracy, $5.00/task, 5min latency
A 比 B 强很多——但 leaderboard 只显示 B 高。
4.2 多维度框架(预告)
Beyond Accuracy: Multi-Dimensional Framework for Enterprise Agentic AI(arXiv 2511.14136)
5 大维度:
| 维度 | 答的问题 |
|---|---|
| Capability | 能做对吗? |
| Reliability | 多次跑稳定吗? |
| Safety | 不做坏事吗? |
| Cost-Efficiency | 多少钱? |
| Latency | 多快? |
第 2 章会展开。
4.3 雷达图思维
每个 agent 在 5 维上画一个雷达图——没有”最强 agent”,只有”最适合某场景的 agent”。
Capability
╱
╱
Cost ──┼── Latency
╲
╲
Safety
Reliability
GPT-5 capable 强但贵;Claude Haiku 4.5 capable 中但便宜快。业务决定该看哪一维。
5. 评测的 4 类参与者
每类有不同的视角:
| 参与者 | 关心什么 | 用什么评测 |
|---|---|---|
| 算法研究 | Capability 极限 | benchmark leaderboard |
| 产品工程 | 业务场景下的好用 | 自建领域 benchmark |
| 运维 SRE | Reliability/Latency | production monitoring + drift |
| 风控合规 | Safety / 不出事 | red-team / adversarial eval |
🍎 生产 agent 团队需要 4 类视角全有——研究指标好不代表产品好,产品好不代表运营稳定,运营稳不代表合规过关。
✅ 自我检验清单
- 5 个核心差异:能默写传统 ML eval vs Agent eval 的 5 维差异
- 三层质量:能解释行为质量 / 结果质量 / 交付质量各对应什么
- 走错路也答对:能给具体例子说明 capability 看不出过程差异
- 5 个核心难题:能默写 reward hacking / reproducibility / cost / verifier / 老化
- Reproducibility 防御:能列出 3 种应对 LLM 非确定性的方法
- Cost 估算:能估算跑一次 SWE-bench Verified 的成本
- Verifier 噪声:能解释为什么 verifier 5% 噪声会”吞掉”3% improvement
- Benchmark 老化:能列出 3 种 contamination 防御措施
- 多维度必要:能给一个具体例子说明”高 capability ≠ 好”
- 4 类参与者:能解释每类视角不同的 eval 关注点
📚 参考资料
综述与方法论
- Beyond Accuracy: Multi-Dimensional Framework (2025):arXiv 2511.14136
- Reward Hacking as Equilibrium under Finite Evaluation (2026):arXiv 2603.28063
工业事件
综合资源
- Awesome AI Evaluation Guide:github.com/hparreao/Awesome-AI-Evaluation-Guide
- LLM Evaluation Tools 2026 (Inference.net):博文