第6章:Computer Use 评测 Benchmark
WebVoyager、Online-Mind2Web、OSWorld、AndroidWorld、VisualWebArena 五大 benchmark 详解,SOTA 数据,An Illusion of Progress 反思
模块八第 3 章讲过通用 agent benchmark(SWE-bench / GAIA / TAU-bench);Computer Use 有自己的专门 benchmark 体系。本章把 5 大 Computer Use benchmark 讲清——WebVoyager、Online-Mind2Web、OSWorld、AndroidWorld、VisualWebArena——以及它们各自的任务形态、SOTA 数据、已知漏洞。最后讲 An Illusion of Progress(arXiv 2504.01382, COLM 2025)对”web agent 真实进度”的反思——揭穿 leaderboard 高分背后的水分。
📑 目录
- 1. 5 大 Benchmark 速查
- 2. WebVoyager:643 个 web 任务
- 3. Online-Mind2Web:WebVoyager 改进版
- 4. OSWorld:跨 OS 桌面任务
- 5. AndroidWorld:移动 agent
- 6. VisualWebArena:视觉 web 任务
- 7. An Illusion of Progress?
- 8. 工业 leaderboard
- 9. 选哪个 benchmark
- 自我检验清单
- 参考资料
1. 5 大 Benchmark 速查
| Benchmark | 出品 | 任务数 | 主战场 | 2026 SOTA |
|---|---|---|---|---|
| WebVoyager | THU + 华盛顿 U | 643 | 真实 web | Gemini 2.5 88.9% |
| Online-Mind2Web | Ohio State U | 300 | 真实 web(改进) | Gemini 2.5 69.0% |
| OSWorld | HKU | 369 | 跨 OS 桌面 | Claude Opus 4.5 66.3% |
| AndroidWorld | 116 | Android 移动 | Gemini 2.5 69.7% | |
| VisualWebArena | CMU | 910 | 视觉 web | GPT-4o 16% |
2. WebVoyager:643 个 web 任务
2024 发布,长期 web agent 主流 benchmark
2.1 任务设计
- 15 个真实网站:Apple Travel、Cambridge Dictionary、ESPN、Coursera、Wolfram Alpha 等
- 643 个任务:从简单查询到多步操作
- 评分:human + GPT-4V dual mode
例题:
任务:在 Google Flights 上找今天从纽约到伦敦的最便宜机票,价格是多少?
评分:看 agent 给的价格是否在 ground truth 范围内
2.2 SOTA(2026)
| Agent | WebVoyager |
|---|---|
| Gemini 2.5 Computer Use | 88.9% |
| browser-use + Claude | 89.1% |
| Skyvern | 85.8% |
| Anthropic Computer Use(Claude Opus 4.5) | ~85% |
| Vanilla GPT-4o | ~50% |
🌟 接近饱和——SOTA 接近 90%,benchmark 区分度变小。
2.3 已知问题
Online-Mind2Web 论文(2025-04)指出 WebVoyager 多个缺陷:
- Coverage 窄(只 15 个网站)
- Task 不够 diverse
- Shortcut 严重:用 Google Search 一招就能解 51% 任务
- LLM-as-Judge agreement 低:与人工判断一致性差
🍎 结论:WebVoyager 高分要打折扣——下一节的 Online-Mind2Web 是更严肃的 benchmark。
3. Online-Mind2Web:WebVoyager 改进版
Mind2Web 升级,2025 发布
3.1 改进
| 维度 | WebVoyager | Online-Mind2Web |
|---|---|---|
| 任务数 | 643 | 300 |
| 网站数 | 15 | 136(覆盖广) |
| 评分 | LLM-as-Judge(噪声大) | 人工标注 + LLM 校准 |
| Shortcut hack 抗性 | 弱 | 强 |
| 多样性 | 中 | 高 |
3.2 Online-Mind2Web 设计原则
- 每个网站只 1-3 题(避免某网站熟练就刷分)
- 任务多步(平均 7+ 步)
- 多领域(电商、政府、社交、工具)
- 现役网站(线上真实跑,不是 archive)
3.3 SOTA(2026)
| Agent | Online-Mind2Web |
|---|---|
| Gemini 2.5 Computer Use | 69.0% |
| Claude Opus 4.5 | 60% |
| GPT-5.4 + 工程 | 58% |
⚠️ 注意:SOTA 才 69%——比 WebVoyager 的 89% 落后 20pt,说明 WebVoyager 高分大量是水分。
3.4 工业建议
生产团队应该把 Online-Mind2Web 作为主 benchmark——比 WebVoyager 反映真实能力。
4. OSWorld:跨 OS 桌面任务
HKU 出品,2024-04
4.1 任务设计
- 369 个真实桌面任务
- 三 OS:Ubuntu、Windows、macOS
- 覆盖应用:LibreOffice、GIMP、VS Code、Chrome、Thunderbird、Files 等
- 评分:OS state checking(文件存在?目录被改?剪贴板内容?)
例题:
任务:在 LibreOffice Calc 中,把 sheet1 第 3 行的所有数字加起来,放到 D5 格
评分:检查 D5 cell 的值是否等于 sheet1 第 3 行求和
4.2 SOTA(2026-04)
| Agent | OSWorld |
|---|---|
| Claude Opus 4.5 | 66.3% |
| Anthropic Computer Use(Sonnet 4.5) | 60% |
| OpenAI Codex Background | 50% |
| Gemini 2.5 CU | 42% |
| Vanilla GPT-4o | 12% |
🍎 Anthropic 桌面赛道领先——Claude Opus 4.5 66.3% 是 2026 SOTA。
4.3 OSWorld-Verified
2025 推出,人工筛过的子集
类似 SWE-bench Verified——150 题,确保任务可解 + verifier 准确。
4.4 适用场景
- 桌面 agent 主 benchmark
- 评测 Anthropic / OpenAI Codex 选型
- 跨 OS 能力对比
5. AndroidWorld:移动 agent
Google,2024 发布
5.1 任务
- 116 个 Android 任务
- 跨 20 个常用 app(Gmail、Maps、Calendar、Camera、Files 等)
- 评分:UI state + 文件 / app DB 状态
5.2 SOTA
| Agent | AndroidWorld |
|---|---|
| Gemini 2.5 CU | 69.7% |
| Claude Sonnet 4.5 | 50% |
| GPT-4o + 工程 | 45% |
🌟 Google 移动赛道领先——AndroidWorld 是 Google 自家训练的优势场景。
5.3 局限
- 只 Android(没 iOS)
- 任务有限(116 vs 几百)
- 移动 agent 还在初期
6. VisualWebArena:视觉 web 任务
CMU,2024
6.1 任务
- 910 个任务
- 强视觉理解(canvas-heavy、图片 + 标注、视觉布局)
- 5 个视觉密集网站(图片库、电商、地图)
6.2 SOTA
| Agent | VisualWebArena |
|---|---|
| GPT-4o | 16%(还很难) |
| Gemini 2.5 | ~20% |
VisualWebArena 远未饱和——未来 2-3 年的研究空间。
7. An Illusion of Progress?
arXiv 2504.01382, COLM 2025
7.1 论文核心论点
Web agent 看似进步神速(WebVoyager 50% → 89%),但真实进度可能是幻觉
证据:
- Shortcut hack 普遍:WebVoyager 51% 任务用 Google Search 一招就能搞定
- LLM-as-Judge 偏松:与人工判断 agreement 只有 70-80%
- 网站老化:benchmark 用到的网站 UI 一年内大改,“过时”任务被算对
- 训练 contamination:模型 train 时见过 benchmark 例题
7.2 重新评估
论文重新跑 WebVoyager,只算”严格通过 + 人工确认”:
GPT-4o WebVoyager 报告:51%
重新评估:34% ← 真实能力
差距:17pt!
7.3 工业含义
🍎 不要相信单一 benchmark 高分——尤其是 WebVoyager 风格的”自评分”benchmark:
- 多 benchmark 交叉:WebVoyager + Online-Mind2Web + 自建
- 人工抽审:每月 50-100 条 trajectory
- 领域 benchmark 优先:模块八第 7 章自建 benchmark 才是真本事
7.4 未来 benchmark 方向
- 更严的 verifier(人工 + 多 LLM 投票)
- 更多样的网站
- 防 shortcut(明确禁用 Google Search 类捷径)
- 持续更新(避免 contamination)
8. 工业 leaderboard
8.1 主流 leaderboard
| 站点 | 维护方 | 涵盖 |
|---|---|---|
| steel.dev/leaderboard | Steel | Browser agent 综合 |
| benchlm.ai/benchmarks/osWorld | BenchLM | OSWorld 实时 |
| mind2web-live.github.io | Mind2Web team | 在线 web agent |
| HF Open LLM Leaderboard(部分含 agent) | HuggingFace | 综合 LLM + agent |
8.2 怎么读 leaderboard
看 leaderboard 三件事:
1. 多 benchmark 综合排名(不只看 WebVoyager)
2. 看"verified" / 人工筛子集(更可信)
3. 看 bench 时间(2026 vs 2024 数据不可比)
9. 选哪个 benchmark
9.1 推荐组合
| 你做什么 | 主 benchmark | 辅助 |
|---|---|---|
| Browser agent | Online-Mind2Web | + WebVoyager(对比公开数据) |
| Desktop agent | OSWorld-Verified | + AndroidWorld(若有 mobile) |
| 多场景通用 | OSWorld + Online-Mind2Web | + 自建 |
| 视觉重 web | VisualWebArena | — |
| Mobile | AndroidWorld | — |
9.2 必加自建 benchmark
公开 benchmark 都有 bias / contamination 风险。生产团队必须自建领域 benchmark(模块八第 7 章详)。
9.3 跑 benchmark 的成本
WebVoyager 643 题(GPT-4o): ~$30-100
Online-Mind2Web 300 题: ~$50-150
OSWorld-Verified 150 题: ~$100-300(VM 时间贵)
完整 OSWorld 369 题: ~$300-1000
→ Total 一轮全 benchmark:~$1000-2000
🍎 跑 benchmark 不便宜——预算紧的话先跑代表子集。
✅ 自我检验清单
- 5 大 benchmark 速查:能默写各自任务数、主战场、2026 SOTA
- WebVoyager 局限:能列出 4 个已知问题(coverage / diversity / shortcut / judge)
- Online-Mind2Web 改进:能列出 vs WebVoyager 的 5 维度改进
- OSWorld 评分方式:能解释 OS state checking 工作流
- AndroidWorld 主场:能解释为什么 Google 在 mobile 领先
- VisualWebArena:能讲清”视觉密集”任务的难点
- An Illusion of Progress:能复述论文 4 个 shortcut 证据
- WebVoyager 重新评估:能用 GPT-4o 51% → 34% 的例子讲水分
- leaderboard 三件事:能默写”多 benchmark / verified / 时间”
- 推荐组合:能为 5 个具体场景给出 benchmark 推荐组合
- 跑 benchmark 成本:能估算一轮全 benchmark $1-2K
📚 参考资料
论文与 Benchmark
- WebVoyager:github.com/MinorJerry/WebVoyager | arXiv 2401.13919
- Mind2Web:arXiv 2306.06070
- Online-Mind2Web:arXiv 2504.01382
- OSWorld:arXiv 2404.07972 | os-world.github.io
- AndroidWorld:arXiv 2405.14573
- VisualWebArena:arXiv 2401.13649 | visualwebarena.github.io
反思 / 综述
- An Illusion of Progress?(COLM 2025):arXiv 2504.01382 ⭐
- ClawBench(2026):arXiv 2604.08523
Leaderboard
- Steel.dev:leaderboard.steel.dev
- BenchLM OSWorld:benchlm.ai/benchmarks/osWorld
- Browserbase 评测博客:browserbase.com/blog/evaluating-browser-agents
综合解读
- AI Computer-Use Benchmarks Guide 2026 (O-Mega):博文