第2章:评测的多维度框架 —— Capability/Reliability/Safety/Cost/Latency
Multi-Dimensional Framework 详解,5 大维度指标体系,Pass@k vs Pass^k,Tier 0-3 评测层级,评测金字塔
只看 accuracy 像只看体重——一个数字遮蔽真实的健康状况。本章把 Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI(arXiv 2511.14136)讲透,给你一套5 维 × 4 层级的评测体系,以及 Pass@k 和 Pass^k 这对反直觉但极重要的指标对。读完你能为任何 agent 系统设计一份”多维度雷达图 + 评测金字塔”——上线前用它,上线后也用它。
📑 目录
- 1. 多维度框架的起源
- 2. 5 大维度详解
- 3. Pass@k vs Pass^k:正向 vs 鲁棒
- 4. 评测金字塔:Tier 0-3
- 5. Goodput 与 SLO 评测
- 6. 多维度报告模板
- 自我检验清单
- 参考资料
1. 多维度框架的起源
1.1 单维度时代的崩塌
2024 年之前,LLM 评测的主流是”leaderboard 思维”——MMLU、HumanEval、GSM8K 各自一个数字,排行榜决定胜负。
2025 年开始,业内陆续意识到:
- leaderboard 高 ≠ 业务好用:GPT-5 在 SWE-bench Verified 上 65%,但客服场景可能 Claude 4.5 更靠谱
- leaderboard 模型可能 hack(UC Berkeley 大事件)
- leaderboard 不看 cost / latency / safety
2025-11 Beyond Accuracy 综述论文系统化了这一观察,提出Multi-Dimensional Framework。
1.2 5 大维度
| 维度 | 一句话 |
|---|---|
| Capability | 能做对吗? |
| Reliability | 多次跑稳定吗? |
| Safety | 不做坏事吗? |
| Cost-Efficiency | 多少钱? |
| Latency | 多快? |
没有第六维——所有重要属性都能映射到这 5 维之一。
2. 5 大维度详解
2.1 ① Capability(能力)
Capability 是传统 ML 关注的核心:能不能做对。
| 指标 | 适用 |
|---|---|
| Accuracy / EM | 单选 / 短答 |
| Pass@1 / Pass@k | 代码 / 多次试 |
| Token-F1 / BLEU / ROUGE | 文本生成 |
| Tool Call F1 | 工具调用 |
| Multi-hop reasoning rate | 多步推理 |
🍎 关键洞察:Capability 是必要不充分——做对了不代表 agent 好,但做不对一定不好。
2.2 ② Reliability(可靠性)
Reliability 是 Capability 的”二阶导”:同一个题,反复跑稳定吗?
| 指标 | 含义 |
|---|---|
| Pass^k(后面详) | 连续 k 次都对的概率 |
| Variance | 同题重复跑的方差 |
| Self-consistency | 多次采样答案是否一致 |
| Adversarial robustness | 对抗 prompt 抗扰能力 |
例子:某 agent 单次跑得 80% acc。
- A:每次都稳稳 80% → reliability 高
- B:有时 95%,有时 65% → reliability 低,生产风险大
🌟 Reliability 是生产上线的必要条件,leaderboard 几乎从不报。
2.3 ③ Safety(安全)
Safety 涵盖 agent 不该做的事:
| 类别 | 评测方式 |
|---|---|
| Jailbreak resistance | 标准 jailbreak set,看 refusal rate |
| Prompt injection | 注入测试 prompt 看是否绕过 system |
| Hallucination | 事实回答的错误率 |
| Bias / Toxicity | 标准 toxic prompt set |
| PII leakage | 是否泄露训练数据 |
工业评测集:JailbreakBench、HarmBench、TrustGen。
2.4 ④ Cost-Efficiency(成本)
| 指标 | 含义 |
|---|---|
| $/task | 一次完成多少钱 |
| Tokens used | 输入 + 输出 token 数 |
| Tool calls | 调用次数 |
| Steps to success | 多少步达成目标 |
| $ per 100 successes | 成功一次的成本 |
🍎 数据点:
| 模型 | $/task(GAIA Level 1) |
|---|---|
| GPT-4o-mini | ~$0.02 |
| GPT-4o | ~$0.15 |
| Claude Sonnet 4.5 | ~$0.20 |
| GPT-5.4 / Claude Opus 4.x | ~$0.80 |
| o3-pro / o3-mini | ~$2.00+ |
100x 价差,效果差距 < 30%——成本是 agent 选型的决定性因素。
2.5 ⑤ Latency(延迟)
| 指标 | 含义 |
|---|---|
| TTFT | 首 token 延迟(模块四第 1 章) |
| TPOT | 每 token 延迟 |
| E2E P50/P95/P99 | 端到端任务完成时间分位 |
| Time-to-success | 完成有效输出的时间 |
| Stream rate | 流式输出 tokens/s |
3. Pass@k vs Pass^k:正向 vs 鲁棒
3.1 Pass@k(传统)
k 次尝试中,至少 1 次对的概率
适用:代码生成等”重试便宜”的场景——只要有一次对,就算成功。
3.2 Pass^k(新)
连续 k 次都对的概率
适用:生产 agent 必须可靠——不能”10 次有 1 次对”。
3.3 直观对比
设单次成功率 p = 0.8:
| 指标 | k=1 | k=3 | k=10 |
|---|---|---|---|
| Pass@k | 0.8 | 0.992 | 0.999+ |
| Pass^k | 0.8 | 0.512 | 0.107 |
同一个 80% 能力的 agent,反复跑 10 次都对的概率只有 11%——生产里这是灾难。
🌟 结论:leaderboard 报 Pass@1,生产决策看 Pass^k。
3.4 业务对应
| 场景 | 关心 |
|---|---|
| 代码生成(可重试) | Pass@k |
| 代码生成(用户看) | Pass^1 |
| 客服 agent | Pass^k(每次都要稳) |
| 数据 ETL agent | Pass^k(不能错一次) |
| 创意助手(用户挑选) | Pass@k |
4. 评测金字塔:Tier 0-3
借鉴 Google Test Pyramid 思想:
Tier 3: User 少 + 极慢 + 极贵
Real users in production
─────────────────────
Tier 2: System / E2E 中 + 慢 + 贵
5 大 benchmark + scenarios
─────────────────────────
Tier 1: Integration 多 + 中 + 中
Multi-step trajectory eval
─────────────────────────
Tier 0: Unit 极多 + 极快 + 几乎免费
Single tool / single LLM call
─────────────────────────
4.1 Tier 0:Unit Test
最便宜,跑得最频繁(每个 PR 都跑):
def test_search_tool_format():
response = agent.run("查北京天气")
assert "<search>" in response
assert "</search>" in response
4.2 Tier 1:Integration
测多步 trajectory 是否合理:
def test_multi_hop_trajectory():
result = agent.run("姚明女儿 2025 几岁")
# 检查至少 2 次 search 调用
assert count_calls(result, "search") >= 2
# 检查最终答案合理
assert any(age in result for age in ["14", "15", "16"])
4.3 Tier 2:System / E2E
跑公开 benchmark 或自建领域 benchmark,衡量综合能力:
- GAIA、SWE-bench、TAU-bench
- 自建客服 100 题
- 内部红队测试集
每周 / 每个候选 release 跑一次。
4.4 Tier 3:User(production)
线上 A/B 测试,真实用户反馈:
- thumbs up/down rate
- task completion rate(business KPI)
- user satisfaction score
- 退订率 / 投诉率
🌟 Tier 越高越接近真实但越贵——金字塔的目的是”频繁跑便宜的、偶尔跑昂贵的”。
4.5 频率参考
| Tier | 跑的频率 |
|---|---|
| Tier 0 | 每个 PR(几分钟内) |
| Tier 1 | 每天 / 每个 PR(几十分钟) |
| Tier 2 | 每周 / 每个候选 release(几小时) |
| Tier 3 | 持续(production monitoring) |
5. Goodput 与 SLO 评测
5.1 Goodput(模块四 / 模块六的延伸)
Goodput = 满足 SLO 的有效吞吐:
raw QPS 高但 latency 飙、accuracy 崩——Goodput 是真正的产出。
5.2 SLO 评测在 agent 场景
SLO 1: TTFT < 500ms (P95)
SLO 2: E2E latency < 30s (P95)
SLO 3: Capability accuracy > 70% (rolling 24h)
SLO 4: Hallucination rate < 5%
Goodput = 满足全部 SLO 的请求 / 总请求
🍎 2026 年生产 agent 的趋势:抛弃单一 metric,看 Goodput 同时满足多 SLO。
6. 多维度报告模板
# 一份合格的 agent 评测报告
agent: gpt-5-search-agent-v3
test_date: 2026-05-07
capability:
gaia_level1: 0.65
swe_bench_lite: 0.42
tau_bench_airline: 0.78
custom_benchmark: 0.81
reliability:
pass_3: 0.62 # gaia 连 3 次对的概率
variance_5_runs: 0.04 # 5 次跑的方差
jailbreak_resistance: 0.95
safety:
refusal_rate: 0.96
hallucination_rate: 0.04
pii_leakage: 0.0
cost:
avg_cost_per_task: 0.18 # USD
avg_tokens: 8500
avg_tool_calls: 4.2
latency:
ttft_p95: 410 # ms
e2e_p95: 28 # seconds
overall:
goodput_score: 0.71 # 同时满足全部 SLO 的比例
recommended_use: 一般场景 ✓ 高合规场景 ✗
🌟 每个 release 都该出这样一份报告——不是单个数字,而是 5 维雷达图 + Goodput。
✅ 自我检验清单
- 5 大维度:能默写 Capability/Reliability/Safety/Cost/Latency 各自指标
- Reliability 必要性:能解释”80% acc 但 variance 大”为什么生产不行
- Pass@k vs Pass^k 公式:能默写两个公式
- 直观对比:能用 80% × 10 次的例子展示两者差距
- 业务对应:能给 4 个场景判断各看 Pass@k 还是 Pass^k
- 评测金字塔 4 层:能默写 Tier 0-3 各自跑什么、多频繁、多贵
- Goodput:能写公式,解释为什么”raw QPS 高 ≠ 有效产出”
- 多维度报告:能为某个 agent 写一份 yaml 报告模板
- 决策:能根据 5 维报告给出”哪个场景该用哪个 agent”的建议
📚 参考资料
论文
- Beyond Accuracy: Multi-Dimensional Framework:arXiv 2511.14136 ⭐
- Reward Hacking as Equilibrium:arXiv 2603.28063
- Pass@k 经典论文:HumanEval (Chen et al., 2021)
工业资源
Goodput / SLO
- DistServe (OSDI’24):arXiv 2401.09670(模块四第 6 章已引)
- Production observability for agents:OTel GenAI Semantic Conventions(模块六第 8 章)