第6章：Computer Use 评测 Benchmark

模块八第 3 章讲过通用 agent benchmark(SWE-bench / GAIA / TAU-bench);Computer Use 有自己的专门 benchmark 体系。本章把 5 大 Computer Use benchmark 讲清——WebVoyager、Online-Mind2Web、OSWorld、AndroidWorld、VisualWebArena——以及它们各自的任务形态、SOTA 数据、已知漏洞。最后讲 An Illusion of Progress(arXiv 2504.01382, COLM 2025)对”web agent 真实进度”的反思——揭穿 leaderboard 高分背后的水分。

1. 5 大 Benchmark 速查

Benchmark	出品	任务数	主战场	2026 SOTA
WebVoyager	THU + 华盛顿 U	643	真实 web	Gemini 2.5 88.9%
Online-Mind2Web	Ohio State U	300	真实 web(改进)	Gemini 2.5 69.0%
OSWorld	HKU	369	跨 OS 桌面	Claude Opus 4.5 66.3%
AndroidWorld	Google	116	Android 移动	Gemini 2.5 69.7%
VisualWebArena	CMU	910	视觉 web	GPT-4o 16%

2. WebVoyager:643 个 web 任务

2024 发布,长期 web agent 主流 benchmark

2.1 任务设计

15 个真实网站:Apple Travel、Cambridge Dictionary、ESPN、Coursera、Wolfram Alpha 等
643 个任务:从简单查询到多步操作
评分:human + GPT-4V dual mode

例题:

任务:在 Google Flights 上找今天从纽约到伦敦的最便宜机票,价格是多少?
评分:看 agent 给的价格是否在 ground truth 范围内

2.2 SOTA(2026)

Agent	WebVoyager
Gemini 2.5 Computer Use	88.9%
browser-use + Claude	89.1%
Skyvern	85.8%
Anthropic Computer Use(Claude Opus 4.5)	~85%
Vanilla GPT-4o	~50%

🌟 接近饱和——SOTA 接近 90%,benchmark 区分度变小。

2.3 已知问题

Online-Mind2Web 论文(2025-04)指出 WebVoyager 多个缺陷:

Coverage 窄(只 15 个网站)
Task 不够 diverse
Shortcut 严重:用 Google Search 一招就能解 51% 任务
LLM-as-Judge agreement 低:与人工判断一致性差

🍎 结论:WebVoyager 高分要打折扣——下一节的 Online-Mind2Web 是更严肃的 benchmark。

3. Online-Mind2Web:WebVoyager 改进版

Mind2Web 升级,2025 发布

3.1 改进

维度	WebVoyager	Online-Mind2Web
任务数	643	300
网站数	15	136(覆盖广)
评分	LLM-as-Judge(噪声大)	人工标注 + LLM 校准
Shortcut hack 抗性	弱	强
多样性	中	高

3.2 Online-Mind2Web 设计原则

每个网站只 1-3 题(避免某网站熟练就刷分)
任务多步(平均 7+ 步)
多领域(电商、政府、社交、工具)
现役网站(线上真实跑,不是 archive)

3.3 SOTA(2026)

Agent	Online-Mind2Web
Gemini 2.5 Computer Use	69.0%
Claude Opus 4.5	60%
GPT-5.4 + 工程	58%

⚠️ 注意:SOTA 才 69%——比 WebVoyager 的 89% 落后 20pt,说明 WebVoyager 高分大量是水分。

3.4 工业建议

生产团队应该把 Online-Mind2Web 作为主 benchmark——比 WebVoyager 反映真实能力。

4. OSWorld:跨 OS 桌面任务

HKU 出品,2024-04

4.1 任务设计

369 个真实桌面任务
三 OS:Ubuntu、Windows、macOS
覆盖应用:LibreOffice、GIMP、VS Code、Chrome、Thunderbird、Files 等
评分:OS state checking(文件存在?目录被改?剪贴板内容?)

例题:

任务:在 LibreOffice Calc 中,把 sheet1 第 3 行的所有数字加起来,放到 D5 格
评分:检查 D5 cell 的值是否等于 sheet1 第 3 行求和

4.2 SOTA(2026-04)

Agent	OSWorld
Claude Opus 4.5	66.3%
Anthropic Computer Use(Sonnet 4.5)	60%
OpenAI Codex Background	50%
Gemini 2.5 CU	42%
Vanilla GPT-4o	12%

🍎 Anthropic 桌面赛道领先——Claude Opus 4.5 66.3% 是 2026 SOTA。

4.3 OSWorld-Verified

2025 推出,人工筛过的子集

类似 SWE-bench Verified——150 题,确保任务可解 + verifier 准确。

4.4 适用场景

桌面 agent 主 benchmark
评测 Anthropic / OpenAI Codex 选型
跨 OS 能力对比

5. AndroidWorld:移动 agent

Google,2024 发布

5.1 任务

116 个 Android 任务
跨 20 个常用 app(Gmail、Maps、Calendar、Camera、Files 等)
评分:UI state + 文件 / app DB 状态

5.2 SOTA

Agent	AndroidWorld
Gemini 2.5 CU	69.7%
Claude Sonnet 4.5	50%
GPT-4o + 工程	45%

🌟 Google 移动赛道领先——AndroidWorld 是 Google 自家训练的优势场景。

5.3 局限

只 Android(没 iOS)
任务有限(116 vs 几百)
移动 agent 还在初期

6. VisualWebArena:视觉 web 任务

CMU,2024

6.1 任务

910 个任务
强视觉理解(canvas-heavy、图片 + 标注、视觉布局)
5 个视觉密集网站(图片库、电商、地图)

6.2 SOTA

Agent	VisualWebArena
GPT-4o	16%(还很难)
Gemini 2.5	~20%

VisualWebArena 远未饱和——未来 2-3 年的研究空间。

7. An Illusion of Progress?

arXiv 2504.01382, COLM 2025

7.1 论文核心论点

Web agent 看似进步神速(WebVoyager 50% → 89%),但真实进度可能是幻觉

证据:

Shortcut hack 普遍:WebVoyager 51% 任务用 Google Search 一招就能搞定
LLM-as-Judge 偏松:与人工判断 agreement 只有 70-80%
网站老化:benchmark 用到的网站 UI 一年内大改,“过时”任务被算对
训练 contamination:模型 train 时见过 benchmark 例题

7.2 重新评估

论文重新跑 WebVoyager,只算”严格通过 + 人工确认”:

GPT-4o WebVoyager 报告:51%
重新评估:34%   ← 真实能力
差距:17pt!

7.3 工业含义

🍎 不要相信单一 benchmark 高分——尤其是 WebVoyager 风格的”自评分”benchmark:

多 benchmark 交叉:WebVoyager + Online-Mind2Web + 自建
人工抽审:每月 50-100 条 trajectory
领域 benchmark 优先:模块八第 7 章自建 benchmark 才是真本事

7.4 未来 benchmark 方向

更严的 verifier(人工 + 多 LLM 投票)
更多样的网站
防 shortcut(明确禁用 Google Search 类捷径)
持续更新(避免 contamination)

8. 工业 leaderboard

8.1 主流 leaderboard

站点	维护方	涵盖
steel.dev/leaderboard	Steel	Browser agent 综合
benchlm.ai/benchmarks/osWorld	BenchLM	OSWorld 实时
mind2web-live.github.io	Mind2Web team	在线 web agent
HF Open LLM Leaderboard(部分含 agent)	HuggingFace	综合 LLM + agent

8.2 怎么读 leaderboard

看 leaderboard 三件事:
  1. 多 benchmark 综合排名(不只看 WebVoyager)
  2. 看"verified" / 人工筛子集(更可信)
  3. 看 bench 时间(2026 vs 2024 数据不可比)

9. 选哪个 benchmark

9.1 推荐组合

你做什么	主 benchmark	辅助
Browser agent	Online-Mind2Web	+ WebVoyager(对比公开数据)
Desktop agent	OSWorld-Verified	+ AndroidWorld(若有 mobile)
多场景通用	OSWorld + Online-Mind2Web	+ 自建
视觉重 web	VisualWebArena	—
Mobile	AndroidWorld	—

9.2 必加自建 benchmark

公开 benchmark 都有 bias / contamination 风险。生产团队必须自建领域 benchmark(模块八第 7 章详)。

9.3 跑 benchmark 的成本

WebVoyager 643 题(GPT-4o):    ~$30-100
Online-Mind2Web 300 题:        ~$50-150
OSWorld-Verified 150 题:       ~$100-300(VM 时间贵)
完整 OSWorld 369 题:           ~$300-1000

→ Total 一轮全 benchmark:~$1000-2000

🍎 跑 benchmark 不便宜——预算紧的话先跑代表子集。

✅ 自我检验清单

📚 参考资料

论文与 Benchmark

WebVoyager:github.com/MinorJerry/WebVoyager | arXiv 2401.13919
Mind2Web:arXiv 2306.06070
Online-Mind2Web:arXiv 2504.01382
OSWorld:arXiv 2404.07972 | os-world.github.io
AndroidWorld:arXiv 2405.14573
VisualWebArena:arXiv 2401.13649 | visualwebarena.github.io

反思 / 综述

An Illusion of Progress?(COLM 2025):arXiv 2504.01382 ⭐
ClawBench(2026):arXiv 2604.08523

Leaderboard

Steel.dev:leaderboard.steel.dev
BenchLM OSWorld:benchlm.ai/benchmarks/osWorld
Browserbase 评测博客:browserbase.com/blog/evaluating-browser-agents

综合解读

AI Computer-Use Benchmarks Guide 2026 (O-Mega):博文

搜索