跳到主要内容
Computer Use

第6章:Computer Use 评测 Benchmark

WebVoyager、Online-Mind2Web、OSWorld、AndroidWorld、VisualWebArena 五大 benchmark 详解,SOTA 数据,An Illusion of Progress 反思

WebVoyager Mind2Web OSWorld AndroidWorld Benchmark

模块八第 3 章讲过通用 agent benchmark(SWE-bench / GAIA / TAU-bench);Computer Use 有自己的专门 benchmark 体系。本章把 5 大 Computer Use benchmark 讲清——WebVoyager、Online-Mind2Web、OSWorld、AndroidWorld、VisualWebArena——以及它们各自的任务形态、SOTA 数据、已知漏洞。最后讲 An Illusion of Progress(arXiv 2504.01382, COLM 2025)对”web agent 真实进度”的反思——揭穿 leaderboard 高分背后的水分。

📑 目录


1. 5 大 Benchmark 速查

Benchmark出品任务数主战场2026 SOTA
WebVoyagerTHU + 华盛顿 U643真实 webGemini 2.5 88.9%
Online-Mind2WebOhio State U300真实 web(改进)Gemini 2.5 69.0%
OSWorldHKU369跨 OS 桌面Claude Opus 4.5 66.3%
AndroidWorldGoogle116Android 移动Gemini 2.5 69.7%
VisualWebArenaCMU910视觉 webGPT-4o 16%

2. WebVoyager:643 个 web 任务

2024 发布,长期 web agent 主流 benchmark

2.1 任务设计

  • 15 个真实网站:Apple Travel、Cambridge Dictionary、ESPN、Coursera、Wolfram Alpha 等
  • 643 个任务:从简单查询到多步操作
  • 评分:human + GPT-4V dual mode

例题:

任务:在 Google Flights 上找今天从纽约到伦敦的最便宜机票,价格是多少?
评分:看 agent 给的价格是否在 ground truth 范围内

2.2 SOTA(2026)

AgentWebVoyager
Gemini 2.5 Computer Use88.9%
browser-use + Claude89.1%
Skyvern85.8%
Anthropic Computer Use(Claude Opus 4.5)~85%
Vanilla GPT-4o~50%

🌟 接近饱和——SOTA 接近 90%,benchmark 区分度变小。

2.3 已知问题

Online-Mind2Web 论文(2025-04)指出 WebVoyager 多个缺陷:

  • Coverage 窄(只 15 个网站)
  • Task 不够 diverse
  • Shortcut 严重:用 Google Search 一招就能解 51% 任务
  • LLM-as-Judge agreement 低:与人工判断一致性差

🍎 结论:WebVoyager 高分要打折扣——下一节的 Online-Mind2Web 是更严肃的 benchmark。


3. Online-Mind2Web:WebVoyager 改进版

Mind2Web 升级,2025 发布

3.1 改进

维度WebVoyagerOnline-Mind2Web
任务数643300
网站数15136(覆盖广)
评分LLM-as-Judge(噪声大)人工标注 + LLM 校准
Shortcut hack 抗性
多样性

3.2 Online-Mind2Web 设计原则

  • 每个网站只 1-3 题(避免某网站熟练就刷分)
  • 任务多步(平均 7+ 步)
  • 多领域(电商、政府、社交、工具)
  • 现役网站(线上真实跑,不是 archive)

3.3 SOTA(2026)

AgentOnline-Mind2Web
Gemini 2.5 Computer Use69.0%
Claude Opus 4.560%
GPT-5.4 + 工程58%

⚠️ 注意:SOTA 才 69%——比 WebVoyager 的 89% 落后 20pt,说明 WebVoyager 高分大量是水分

3.4 工业建议

生产团队应该把 Online-Mind2Web 作为主 benchmark——比 WebVoyager 反映真实能力。


4. OSWorld:跨 OS 桌面任务

HKU 出品,2024-04

4.1 任务设计

  • 369 个真实桌面任务
  • 三 OS:Ubuntu、Windows、macOS
  • 覆盖应用:LibreOffice、GIMP、VS Code、Chrome、Thunderbird、Files 等
  • 评分:OS state checking(文件存在?目录被改?剪贴板内容?)

例题:

任务:在 LibreOffice Calc 中,把 sheet1 第 3 行的所有数字加起来,放到 D5 格
评分:检查 D5 cell 的值是否等于 sheet1 第 3 行求和

4.2 SOTA(2026-04)

AgentOSWorld
Claude Opus 4.566.3%
Anthropic Computer Use(Sonnet 4.5)60%
OpenAI Codex Background50%
Gemini 2.5 CU42%
Vanilla GPT-4o12%

🍎 Anthropic 桌面赛道领先——Claude Opus 4.5 66.3% 是 2026 SOTA。

4.3 OSWorld-Verified

2025 推出,人工筛过的子集

类似 SWE-bench Verified——150 题,确保任务可解 + verifier 准确。

4.4 适用场景

  • 桌面 agent 主 benchmark
  • 评测 Anthropic / OpenAI Codex 选型
  • 跨 OS 能力对比

5. AndroidWorld:移动 agent

Google,2024 发布

5.1 任务

  • 116 个 Android 任务
  • 跨 20 个常用 app(Gmail、Maps、Calendar、Camera、Files 等)
  • 评分:UI state + 文件 / app DB 状态

5.2 SOTA

AgentAndroidWorld
Gemini 2.5 CU69.7%
Claude Sonnet 4.550%
GPT-4o + 工程45%

🌟 Google 移动赛道领先——AndroidWorld 是 Google 自家训练的优势场景。

5.3 局限

  • 只 Android(没 iOS)
  • 任务有限(116 vs 几百)
  • 移动 agent 还在初期

6. VisualWebArena:视觉 web 任务

CMU,2024

6.1 任务

  • 910 个任务
  • 视觉理解(canvas-heavy、图片 + 标注、视觉布局)
  • 5 个视觉密集网站(图片库、电商、地图)

6.2 SOTA

AgentVisualWebArena
GPT-4o16%(还很难)
Gemini 2.5~20%

VisualWebArena 远未饱和——未来 2-3 年的研究空间。


7. An Illusion of Progress?

arXiv 2504.01382, COLM 2025

7.1 论文核心论点

Web agent 看似进步神速(WebVoyager 50% → 89%),但真实进度可能是幻觉

证据:

  • Shortcut hack 普遍:WebVoyager 51% 任务用 Google Search 一招就能搞定
  • LLM-as-Judge 偏松:与人工判断 agreement 只有 70-80%
  • 网站老化:benchmark 用到的网站 UI 一年内大改,“过时”任务被算对
  • 训练 contamination:模型 train 时见过 benchmark 例题

7.2 重新评估

论文重新跑 WebVoyager,只算”严格通过 + 人工确认”:

GPT-4o WebVoyager 报告:51%
重新评估:34%   ← 真实能力
差距:17pt!

7.3 工业含义

🍎 不要相信单一 benchmark 高分——尤其是 WebVoyager 风格的”自评分”benchmark:

  • 多 benchmark 交叉:WebVoyager + Online-Mind2Web + 自建
  • 人工抽审:每月 50-100 条 trajectory
  • 领域 benchmark 优先:模块八第 7 章自建 benchmark 才是真本事

7.4 未来 benchmark 方向

  • 更严的 verifier(人工 + 多 LLM 投票)
  • 更多样的网站
  • 防 shortcut(明确禁用 Google Search 类捷径)
  • 持续更新(避免 contamination)

8. 工业 leaderboard

8.1 主流 leaderboard

站点维护方涵盖
steel.dev/leaderboardSteelBrowser agent 综合
benchlm.ai/benchmarks/osWorldBenchLMOSWorld 实时
mind2web-live.github.ioMind2Web team在线 web agent
HF Open LLM Leaderboard(部分含 agent)HuggingFace综合 LLM + agent

8.2 怎么读 leaderboard

看 leaderboard 三件事:
  1. 多 benchmark 综合排名(不只看 WebVoyager)
  2. 看"verified" / 人工筛子集(更可信)
  3. 看 bench 时间(2026 vs 2024 数据不可比)

9. 选哪个 benchmark

9.1 推荐组合

你做什么主 benchmark辅助
Browser agentOnline-Mind2Web+ WebVoyager(对比公开数据)
Desktop agentOSWorld-Verified+ AndroidWorld(若有 mobile)
多场景通用OSWorld + Online-Mind2Web+ 自建
视觉重 webVisualWebArena
MobileAndroidWorld

9.2 必加自建 benchmark

公开 benchmark 都有 bias / contamination 风险。生产团队必须自建领域 benchmark(模块八第 7 章详)。

9.3 跑 benchmark 的成本

WebVoyager 643 题(GPT-4o):    ~$30-100
Online-Mind2Web 300 题:        ~$50-150
OSWorld-Verified 150 题:       ~$100-300(VM 时间贵)
完整 OSWorld 369 题:           ~$300-1000

→ Total 一轮全 benchmark:~$1000-2000

🍎 跑 benchmark 不便宜——预算紧的话先跑代表子集。


✅ 自我检验清单

  • 5 大 benchmark 速查:能默写各自任务数、主战场、2026 SOTA
  • WebVoyager 局限:能列出 4 个已知问题(coverage / diversity / shortcut / judge)
  • Online-Mind2Web 改进:能列出 vs WebVoyager 的 5 维度改进
  • OSWorld 评分方式:能解释 OS state checking 工作流
  • AndroidWorld 主场:能解释为什么 Google 在 mobile 领先
  • VisualWebArena:能讲清”视觉密集”任务的难点
  • An Illusion of Progress:能复述论文 4 个 shortcut 证据
  • WebVoyager 重新评估:能用 GPT-4o 51% → 34% 的例子讲水分
  • leaderboard 三件事:能默写”多 benchmark / verified / 时间”
  • 推荐组合:能为 5 个具体场景给出 benchmark 推荐组合
  • 跑 benchmark 成本:能估算一轮全 benchmark $1-2K

📚 参考资料

论文与 Benchmark

反思 / 综述

Leaderboard

综合解读

  • AI Computer-Use Benchmarks Guide 2026 (O-Mega):博文