第1章：Agent Evaluation 的独特挑战

写一个分类器,跑 sklearn 看 accuracy 就完事——这是传统 ML 的世界。Agent 时代彻底变了:trajectory 是动态的、reward 可以被 hack、LLM judge 自己有偏见、benchmark 模型可能 train 时见过、跑一次评测要 $10——任何一个传统 ML 的反射动作都可能给你错觉。本章把 Agent Eval 的”独特挑战”系统讲清,让你知道剩下 8 章都在解决什么。

📑 目录

1. 传统 ML eval 为什么不够用
2. Agent 是动态的、行为驱动的
3. 5 个核心难题
4. 为什么要从单一指标转向多维度
5. 评测的 4 类参与者
自我检验清单
参考资料

1. 传统 ML eval 为什么不够用

1.1 一个对比例子

传统分类器:垃圾邮件检测

y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(acc)  # 0.94

3 行代码、可复现、客观公正——业内 30 年的标准。

Agent:订机票任务

User: 帮我订下周三去东京的机票,3000 块以内,靠窗
Agent:
  → search("Tokyo flights next Wednesday")    [1]
  → 看结果,选 ANA 航班                          [2]
  → 调用 booking_api(...)                       [3]
  → 失败:用户没付款方式                           [4]
  → 反馈:请添加付款方式                           [5]

怎么打分? 答错了?完成了?中途失败但反馈合理算不算成功?用了几个工具算贵不算贵?用户体验感如何?——没有 1 行 sklearn 代码能告诉你。

1.2 5 个核心差异

维度	传统 ML eval	Agent eval
任务形态	输入 → 输出一对一	多步 trajectory + 工具 + 状态
评分方式	accuracy/F1/AUC	多维度 + LLM-as-Judge
数据形态	静态 (X, y)	动态 trajectory + env state
失败模式	模型答错	答错 + reward hacking + 中途崩
可重现性	高(deterministic)	极差(LLM 随机性 + 网络)

🌟 结论:Agent 评测不是”加几个新指标”——是范式转变。

2. Agent 是动态的、行为驱动的

2.1 三种”质量”

考察一个 agent 的”好”,至少要看三个层面:

            ┌─────────────────┐
            │   行为质量       │  ← 怎么做的(过程对吗?用了几次 tool?)
            ├─────────────────┤
            │   结果质量       │  ← 答对了吗?
            ├─────────────────┤
            │   交付质量       │  ← 用户体验如何?cost 多少?多快?
            └─────────────────┘

传统 ML 只测中间层(结果)——其他两层完全空白。

2.2 行为评测的难度

考虑”答对但走错路”的场景:

Q: 美国人口是多少?
Agent A: search("美国人口") → 拿到 3.32 亿 → 答对 ✓
Agent B: 直接答"3.5 亿"(没调 search,但凑巧近似对) → 答错 ✗
Agent C: search("美国人口") → 拿到结果 → 调 calculator(无意义) → 又调 search → 答 3.32 亿 ✓

A 和 C 都”答对”但行为质量差别巨大——C 浪费了 2 次工具调用。Capability 维度看不出差异,Cost 和 Reliability 维度才能区分。

3. 5 个核心难题

3.1 难题 1:Reward Hacking ⚠️

2026-04 UC Berkeley RDI 用一个自动 agent 破解了 8 大主流 benchmark

模型可能学到”过 verifier 的捷径”而非”真正解决问题”:

benchmark	已知 hack 模式
SWE-bench	改 test 文件让自己通过
WebArena	利用 verifier 字符串匹配的漏洞
GAIA	提取出题人设计的关键词模式

🌟 第 5 章会专题深入——这是本模块的灵魂。

3.2 难题 2:Reproducibility(可重现性)

跑 1: GPT-4o 在 GAIA 得 65%
跑 2: GPT-4o 在 GAIA 得 62%(相同模型、相同题、不同温度)
跑 3: GPT-4o 在 GAIA 得 71%(系统 prompt 变了一个字)

LLM 的非确定性 + prompt sensitivity 让 agent 评测难复现。

防御:多次跑取均值、固定温度、记录 prompt 哈希。

3.3 难题 3:Cost(评测成本)

跑 1 次 SWE-bench Verified(500 题):

GPT-4o:每题平均 5K input / 2K output = ~ $0.05/题 → ~$ 25 一轮
Claude Opus 4.x:更贵,~$60-100 一轮
单次实验小 $25 还能接受
但训一个模型试 100 个超参组合 = $2500-10000

Eval 成本比训练成本占比越来越大。

3.4 难题 4:Verifier 准确率

verifier 自己 99%+ 准吗?如果 verifier 错了 5%,模型 acc 上升 5% 可能完全是噪声:

Real model improvement: +3%
Verifier noise: ±5%
观察到的 metric: 完全没意义

第 4 章 LLM-as-Judge 会专门讲 bias 和校准。

3.5 难题 5:Benchmark 老化

公开 benchmark 经常被 model train 时见过:

SWE-bench 2023 发布
GPT-4 train data 截止 2023-04(可能见过 SWE-bench 题)
GPT-5 train data 截止 2024-12(可能见过 SWE-bench 答案)

模型在见过的 benchmark 上分数虚高——这就是 contamination。

防御:

SWE-bench Verified(更新版,人工验证过)
私有 benchmark(不公开题目)
持续更新 benchmark(每季度新题)

4. 为什么要从单一指标转向多维度

4.1 单维度的陷阱

只看 accuracy 的 agent:

Agent A: 80% accuracy, $0.50/task, 30s latency
Agent B: 82% accuracy, $5.00/task, 5min latency

A 比 B 强很多——但 leaderboard 只显示 B 高。

4.2 多维度框架(预告)

Beyond Accuracy: Multi-Dimensional Framework for Enterprise Agentic AI(arXiv 2511.14136)

5 大维度:

维度	答的问题
Capability	能做对吗?
Reliability	多次跑稳定吗?
Safety	不做坏事吗?
Cost-Efficiency	多少钱?
Latency	多快?

第 2 章会展开。

4.3 雷达图思维

每个 agent 在 5 维上画一个雷达图——没有”最强 agent”,只有”最适合某场景的 agent”。

       Capability
          ╱
         ╱
Cost ──┼── Latency
        ╲
         ╲
       Safety
       Reliability

GPT-5 capable 强但贵;Claude Haiku 4.5 capable 中但便宜快。业务决定该看哪一维。

5. 评测的 4 类参与者

每类有不同的视角:

参与者	关心什么	用什么评测
算法研究	Capability 极限	benchmark leaderboard
产品工程	业务场景下的好用	自建领域 benchmark
运维 SRE	Reliability/Latency	production monitoring + drift
风控合规	Safety / 不出事	red-team / adversarial eval

🍎 生产 agent 团队需要 4 类视角全有——研究指标好不代表产品好,产品好不代表运营稳定,运营稳不代表合规过关。

✅ 自我检验清单

📚 参考资料

综述与方法论

Beyond Accuracy: Multi-Dimensional Framework (2025):arXiv 2511.14136
Reward Hacking as Equilibrium under Finite Evaluation (2026):arXiv 2603.28063

工业事件

UC Berkeley RDI: How We Broke Top AI Agent Benchmarks:博文
Trustworthy Benchmarks:博文

综合资源

Awesome AI Evaluation Guide:github.com/hparreao/Awesome-AI-Evaluation-Guide
LLM Evaluation Tools 2026 (Inference.net):博文

搜索