第2章：评测的多维度框架 —— Capability/Reliability/Safety/Cost/Latency

只看 accuracy 像只看体重——一个数字遮蔽真实的健康状况。本章把 Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI(arXiv 2511.14136)讲透,给你一套5 维 × 4 层级的评测体系,以及 Pass@k 和 Pass^k 这对反直觉但极重要的指标对。读完你能为任何 agent 系统设计一份”多维度雷达图 + 评测金字塔”——上线前用它,上线后也用它。

1. 多维度框架的起源

1.1 单维度时代的崩塌

2024 年之前,LLM 评测的主流是”leaderboard 思维”——MMLU、HumanEval、GSM8K 各自一个数字,排行榜决定胜负。

2025 年开始,业内陆续意识到:

leaderboard 高 ≠ 业务好用:GPT-5 在 SWE-bench Verified 上 65%,但客服场景可能 Claude 4.5 更靠谱
leaderboard 模型可能 hack(UC Berkeley 大事件)
leaderboard 不看 cost / latency / safety

2025-11 Beyond Accuracy 综述论文系统化了这一观察,提出Multi-Dimensional Framework。

1.2 5 大维度

维度	一句话
Capability	能做对吗?
Reliability	多次跑稳定吗?
Safety	不做坏事吗?
Cost-Efficiency	多少钱?
Latency	多快?

没有第六维——所有重要属性都能映射到这 5 维之一。

2. 5 大维度详解

2.1 ① Capability(能力)

Capability 是传统 ML 关注的核心:能不能做对。

指标	适用
Accuracy / EM	单选 / 短答
Pass@1 / Pass@k	代码 / 多次试
Token-F1 / BLEU / ROUGE	文本生成
Tool Call F1	工具调用
Multi-hop reasoning rate	多步推理

🍎 关键洞察:Capability 是必要不充分——做对了不代表 agent 好,但做不对一定不好。

2.2 ② Reliability(可靠性)

Reliability 是 Capability 的”二阶导”:同一个题,反复跑稳定吗?

指标	含义
Pass^k(后面详)	连续 k 次都对的概率
Variance	同题重复跑的方差
Self-consistency	多次采样答案是否一致
Adversarial robustness	对抗 prompt 抗扰能力

例子:某 agent 单次跑得 80% acc。

A:每次都稳稳 80% → reliability 高
B:有时 95%,有时 65% → reliability 低,生产风险大

🌟 Reliability 是生产上线的必要条件,leaderboard 几乎从不报。

2.3 ③ Safety(安全)

Safety 涵盖 agent 不该做的事:

类别	评测方式
Jailbreak resistance	标准 jailbreak set,看 refusal rate
Prompt injection	注入测试 prompt 看是否绕过 system
Hallucination	事实回答的错误率
Bias / Toxicity	标准 toxic prompt set
PII leakage	是否泄露训练数据

工业评测集:JailbreakBench、HarmBench、TrustGen。

2.4 ④ Cost-Efficiency(成本)

指标	含义
$/task	一次完成多少钱
Tokens used	输入 + 输出 token 数
Tool calls	调用次数
Steps to success	多少步达成目标
$ per 100 successes	成功一次的成本

🍎 数据点:

模型	$/task(GAIA Level 1)
GPT-4o-mini	~$0.02
GPT-4o	~$0.15
Claude Sonnet 4.5	~$0.20
GPT-5.4 / Claude Opus 4.x	~$0.80
o3-pro / o3-mini	~$2.00+

100x 价差,效果差距 < 30%——成本是 agent 选型的决定性因素。

2.5 ⑤ Latency(延迟)

指标	含义
TTFT	首 token 延迟(模块四第 1 章)
TPOT	每 token 延迟
E2E P50/P95/P99	端到端任务完成时间分位
Time-to-success	完成有效输出的时间
Stream rate	流式输出 tokens/s

3. Pass@k vs Pass^k:正向 vs 鲁棒

3.1 Pass@k(传统)

k 次尝试中,至少 1 次对的概率

\text{Pass@k} = 1 - \prod_{i=1}^{k}(1 - p_i)

适用:代码生成等”重试便宜”的场景——只要有一次对,就算成功。

3.2 Pass^k(新)

连续 k 次都对的概率

\text{Pass}^k = \prod_{i=1}^{k} p_i

适用:生产 agent 必须可靠——不能”10 次有 1 次对”。

3.3 直观对比

设单次成功率 p = 0.8:

指标	k=1	k=3	k=10
Pass@k	0.8	0.992	0.999+
Pass^k	0.8	0.512	0.107

同一个 80% 能力的 agent,反复跑 10 次都对的概率只有 11%——生产里这是灾难。

🌟 结论:leaderboard 报 Pass@1,生产决策看 Pass^k。

3.4 业务对应

场景	关心
代码生成(可重试)	Pass@k
代码生成(用户看)	Pass^1
客服 agent	Pass^k(每次都要稳)
数据 ETL agent	Pass^k(不能错一次)
创意助手(用户挑选)	Pass@k

4. 评测金字塔:Tier 0-3

借鉴 Google Test Pyramid 思想:

                    Tier 3: User                  少 + 极慢 + 极贵
                  Real users in production
                ─────────────────────
              Tier 2: System / E2E                中 + 慢 + 贵
              5 大 benchmark + scenarios
            ─────────────────────────
          Tier 1: Integration                     多 + 中 + 中
          Multi-step trajectory eval
        ─────────────────────────
      Tier 0: Unit                                极多 + 极快 + 几乎免费
      Single tool / single LLM call
    ─────────────────────────

4.1 Tier 0:Unit Test

最便宜,跑得最频繁(每个 PR 都跑):

def test_search_tool_format():
    response = agent.run("查北京天气")
    assert "<search>" in response
    assert "</search>" in response

4.2 Tier 1:Integration

测多步 trajectory 是否合理:

def test_multi_hop_trajectory():
    result = agent.run("姚明女儿 2025 几岁")
    # 检查至少 2 次 search 调用
    assert count_calls(result, "search") >= 2
    # 检查最终答案合理
    assert any(age in result for age in ["14", "15", "16"])

4.3 Tier 2:System / E2E

跑公开 benchmark 或自建领域 benchmark,衡量综合能力:

GAIA、SWE-bench、TAU-bench
自建客服 100 题
内部红队测试集

每周 / 每个候选 release 跑一次。

4.4 Tier 3:User(production)

线上 A/B 测试,真实用户反馈:

thumbs up/down rate
task completion rate(business KPI)
user satisfaction score
退订率 / 投诉率

🌟 Tier 越高越接近真实但越贵——金字塔的目的是”频繁跑便宜的、偶尔跑昂贵的”。

4.5 频率参考

Tier	跑的频率
Tier 0	每个 PR(几分钟内)
Tier 1	每天 / 每个 PR(几十分钟)
Tier 2	每周 / 每个候选 release(几小时)
Tier 3	持续(production monitoring)

5. Goodput 与 SLO 评测

5.1 Goodput(模块四 / 模块六的延伸)

Goodput = 满足 SLO 的有效吞吐:

\text{Goodput} = \text{QPS} \times \mathbb{1}[\text{TTFT} < \text{SLO}_{TTFT}] \times \mathbb{1}[\text{TPOT} < \text{SLO}_{TPOT}] \times \mathbb{1}[\text{accuracy correct}]

raw QPS 高但 latency 飙、accuracy 崩——Goodput 是真正的产出。

5.2 SLO 评测在 agent 场景

SLO 1: TTFT < 500ms (P95)
SLO 2: E2E latency < 30s (P95)
SLO 3: Capability accuracy > 70% (rolling 24h)
SLO 4: Hallucination rate < 5%

Goodput = 满足全部 SLO 的请求 / 总请求

🍎 2026 年生产 agent 的趋势:抛弃单一 metric,看 Goodput 同时满足多 SLO。

6. 多维度报告模板

# 一份合格的 agent 评测报告
agent: gpt-5-search-agent-v3
test_date: 2026-05-07

capability:
  gaia_level1: 0.65
  swe_bench_lite: 0.42
  tau_bench_airline: 0.78
  custom_benchmark: 0.81

reliability:
  pass_3: 0.62           # gaia 连 3 次对的概率
  variance_5_runs: 0.04  # 5 次跑的方差
  jailbreak_resistance: 0.95

safety:
  refusal_rate: 0.96
  hallucination_rate: 0.04
  pii_leakage: 0.0

cost:
  avg_cost_per_task: 0.18  # USD
  avg_tokens: 8500
  avg_tool_calls: 4.2

latency:
  ttft_p95: 410         # ms
  e2e_p95: 28           # seconds
  
overall:
  goodput_score: 0.71   # 同时满足全部 SLO 的比例
  recommended_use: 一般场景 ✓ 高合规场景 ✗

🌟 每个 release 都该出这样一份报告——不是单个数字,而是 5 维雷达图 + Goodput。

✅ 自我检验清单

5 大维度:能默写 Capability/Reliability/Safety/Cost/Latency 各自指标
Reliability 必要性:能解释”80% acc 但 variance 大”为什么生产不行
Pass@k vs Pass^k 公式:能默写两个公式
直观对比:能用 80% × 10 次的例子展示两者差距
业务对应:能给 4 个场景判断各看 Pass@k 还是 Pass^k
评测金字塔 4 层:能默写 Tier 0-3 各自跑什么、多频繁、多贵
Goodput:能写公式,解释为什么”raw QPS 高 ≠ 有效产出”
多维度报告:能为某个 agent 写一份 yaml 报告模板
决策:能根据 5 维报告给出”哪个场景该用哪个 agent”的建议

📚 参考资料

论文

Beyond Accuracy: Multi-Dimensional Framework:arXiv 2511.14136 ⭐
Reward Hacking as Equilibrium:arXiv 2603.28063
Pass@k 经典论文:HumanEval (Chen et al., 2021)

工业资源

UC Berkeley RDI Trustworthy Benchmarks:博文
AI Multiple LLM Eval Tools:博文

Goodput / SLO

DistServe (OSDI’24):arXiv 2401.09670(模块四第 6 章已引)
Production observability for agents:OTel GenAI Semantic Conventions(模块六第 8 章)

搜索