跳到主要内容
Agent Eval

第1章:Agent Evaluation 的独特挑战

传统 ML eval 为什么不够用,Agent 评测的 5 个核心难题,多维度评估的必要性

Agent Evaluation Multi-Dimensional LLM-as-Judge Reward Hacking

写一个分类器,跑 sklearn 看 accuracy 就完事——这是传统 ML 的世界。Agent 时代彻底变了:trajectory 是动态的、reward 可以被 hack、LLM judge 自己有偏见、benchmark 模型可能 train 时见过、跑一次评测要 $10——任何一个传统 ML 的反射动作都可能给你错觉。本章把 Agent Eval 的”独特挑战”系统讲清,让你知道剩下 8 章都在解决什么。

📑 目录


1. 传统 ML eval 为什么不够用

1.1 一个对比例子

传统分类器:垃圾邮件检测

y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(acc)  # 0.94

3 行代码、可复现、客观公正——业内 30 年的标准。

Agent:订机票任务

User: 帮我订下周三去东京的机票,3000 块以内,靠窗
Agent:
  → search("Tokyo flights next Wednesday")    [1]
  → 看结果,选 ANA 航班                          [2]
  → 调用 booking_api(...)                       [3]
  → 失败:用户没付款方式                           [4]
  → 反馈:请添加付款方式                           [5]

怎么打分? 答错了?完成了?中途失败但反馈合理算不算成功?用了几个工具算贵不算贵?用户体验感如何?——没有 1 行 sklearn 代码能告诉你

1.2 5 个核心差异

维度传统 ML evalAgent eval
任务形态输入 → 输出 一对一多步 trajectory + 工具 + 状态
评分方式accuracy/F1/AUC多维度 + LLM-as-Judge
数据形态静态 (X, y)动态 trajectory + env state
失败模式模型答错答错 + reward hacking + 中途崩
可重现性高(deterministic)极差(LLM 随机性 + 网络)

🌟 结论:Agent 评测不是”加几个新指标”——是范式转变


2. Agent 是动态的、行为驱动的

2.1 三种”质量”

考察一个 agent 的”好”,至少要看三个层面:

            ┌─────────────────┐
            │   行为质量       │  ← 怎么做的(过程对吗?用了几次 tool?)
            ├─────────────────┤
            │   结果质量       │  ← 答对了吗?
            ├─────────────────┤
            │   交付质量       │  ← 用户体验如何?cost 多少?多快?
            └─────────────────┘

传统 ML 只测中间层(结果)——其他两层完全空白。

2.2 行为评测的难度

考虑”答对但走错路”的场景:

Q: 美国人口是多少?
Agent A: search("美国人口") → 拿到 3.32 亿 → 答对 ✓
Agent B: 直接答"3.5 亿"(没调 search,但凑巧近似对) → 答错 ✗
Agent C: search("美国人口") → 拿到结果 → 调 calculator(无意义) → 又调 search → 答 3.32 亿 ✓

A 和 C 都”答对”但行为质量差别巨大——C 浪费了 2 次工具调用。Capability 维度看不出差异,Cost 和 Reliability 维度才能区分


3. 5 个核心难题

3.1 难题 1:Reward Hacking ⚠️

2026-04 UC Berkeley RDI 用一个自动 agent 破解了 8 大主流 benchmark

模型可能学到”过 verifier 的捷径”而非”真正解决问题”:

benchmark已知 hack 模式
SWE-bench改 test 文件让自己通过
WebArena利用 verifier 字符串匹配的漏洞
GAIA提取出题人设计的关键词模式

🌟 第 5 章会专题深入——这是本模块的灵魂。

3.2 难题 2:Reproducibility(可重现性)

跑 1: GPT-4o 在 GAIA 得 65%
跑 2: GPT-4o 在 GAIA 得 62%(相同模型、相同题、不同温度)
跑 3: GPT-4o 在 GAIA 得 71%(系统 prompt 变了一个字)

LLM 的非确定性 + prompt sensitivity 让 agent 评测难复现

防御:多次跑取均值、固定温度、记录 prompt 哈希。

3.3 难题 3:Cost(评测成本)

跑 1 次 SWE-bench Verified(500 题):

  • GPT-4o:每题平均 5K input / 2K output = ~0.05/ 0.05/题 → ~25 一轮
  • Claude Opus 4.x:更贵,~$60-100 一轮
  • 单次实验小 $25 还能接受
  • 但训一个模型试 100 个超参组合 = $2500-10000

Eval 成本比训练成本占比越来越大

3.4 难题 4:Verifier 准确率

verifier 自己 99%+ 准吗?如果 verifier 错了 5%,模型 acc 上升 5% 可能完全是噪声:

Real model improvement: +3%
Verifier noise: ±5%
观察到的 metric: 完全没意义

第 4 章 LLM-as-Judge 会专门讲 bias 和校准。

3.5 难题 5:Benchmark 老化

公开 benchmark 经常被 model train 时见过:

SWE-bench 2023 发布
GPT-4 train data 截止 2023-04(可能见过 SWE-bench 题)
GPT-5 train data 截止 2024-12(可能见过 SWE-bench 答案)

模型在见过的 benchmark 上分数虚高——这就是 contamination。

防御:

  • SWE-bench Verified(更新版,人工验证过)
  • 私有 benchmark(不公开题目)
  • 持续更新 benchmark(每季度新题)

4. 为什么要从单一指标转向多维度

4.1 单维度的陷阱

只看 accuracy 的 agent:

Agent A: 80% accuracy, $0.50/task, 30s latency
Agent B: 82% accuracy, $5.00/task, 5min latency

A 比 B 强很多——但 leaderboard 只显示 B 高

4.2 多维度框架(预告)

Beyond Accuracy: Multi-Dimensional Framework for Enterprise Agentic AI(arXiv 2511.14136)

5 大维度:

维度答的问题
Capability能做对吗?
Reliability多次跑稳定吗?
Safety不做坏事吗?
Cost-Efficiency多少钱?
Latency多快?

第 2 章会展开。

4.3 雷达图思维

每个 agent 在 5 维上画一个雷达图——没有”最强 agent”,只有”最适合某场景的 agent”

       Capability


Cost ──┼── Latency


       Safety
       Reliability

GPT-5 capable 强但贵;Claude Haiku 4.5 capable 中但便宜快。业务决定该看哪一维


5. 评测的 4 类参与者

每类有不同的视角:

参与者关心什么用什么评测
算法研究Capability 极限benchmark leaderboard
产品工程业务场景下的好用自建领域 benchmark
运维 SREReliability/Latencyproduction monitoring + drift
风控合规Safety / 不出事red-team / adversarial eval

🍎 生产 agent 团队需要 4 类视角全有——研究指标好不代表产品好,产品好不代表运营稳定,运营稳不代表合规过关。


✅ 自我检验清单

  • 5 个核心差异:能默写传统 ML eval vs Agent eval 的 5 维差异
  • 三层质量:能解释行为质量 / 结果质量 / 交付质量各对应什么
  • 走错路也答对:能给具体例子说明 capability 看不出过程差异
  • 5 个核心难题:能默写 reward hacking / reproducibility / cost / verifier / 老化
  • Reproducibility 防御:能列出 3 种应对 LLM 非确定性的方法
  • Cost 估算:能估算跑一次 SWE-bench Verified 的成本
  • Verifier 噪声:能解释为什么 verifier 5% 噪声会”吞掉”3% improvement
  • Benchmark 老化:能列出 3 种 contamination 防御措施
  • 多维度必要:能给一个具体例子说明”高 capability ≠ 好”
  • 4 类参与者:能解释每类视角不同的 eval 关注点

📚 参考资料

综述与方法论

工业事件

  • UC Berkeley RDI: How We Broke Top AI Agent Benchmarks:博文
  • Trustworthy Benchmarks:博文

综合资源