Computer / Browser Use Agents 学习路线

前 8 个模块的 agent 都活在”文本世界”——通过 API 调工具、写代码、查信息。但用户实际生活在 GUI 世界:浏览器、桌面软件、移动 app。让 agent 直接看屏幕、点鼠标、敲键盘——这就是 Computer Use,2024-2026 最热的前沿垂直方向。Anthropic 2024-10 首发 Computer Use,OpenAI 2026-04 推出 Codex Background Computer Use,Google 基于 Project Mariner 出 Gemini Computer Use,开源侧 browser-use 91K stars、Stagehand、Skyvern、UI-TARS 同时在卷。本文给 9 章 + 学习路线总览,从概念到论文到生产实战。

作者将根据该路线编写系列文章。

🖥️ 全景概览:从 API 到 GUI 的范式转变

传统 Agent(模块五-八):
  Agent ──→ 调 search API → JSON
        ──→ 调 calculator API → 数字
        ──→ 调 DB API → 表格

Computer Use Agent(模块九):
  Agent ──→ 看 screenshot
        ──→ 推理"该点哪里"
        ──→ 发 click(120, 340)
        ──→ 看新 screenshot
        ──→ 循环

🍎 比喻:

传统 Agent = 看说明书装家具(API 文档清晰、参数明确)
Computer Use = 看着 IKEA 视频自己拼(只有屏幕、要靠视觉理解)

后者难度高一个数量级——但解锁的能力空间大几个数量级:任何能用屏幕做的事 agent 都能做。

🌐 Computer Use 三层栈

┌─────────────────────────────────────┐
│  Mobile(Android / iOS)              │  AndroidWorld、移动场景
├─────────────────────────────────────┤
│  Desktop(macOS/Windows/Linux)        │  OSWorld、办公场景
├─────────────────────────────────────┤
│  Browser                             │  WebVoyager、Mind2Web、网页场景
└─────────────────────────────────────┘

按难度:Browser < Desktop < Mobile(因为越往上 GUI 标准化越差)。

按市场成熟度:Browser 是最先成熟的(2024-2025 已有量产),Desktop 2025-2026 起飞,Mobile 2026 才刚刚开局。

📖 章节导览

章	主题	核心拼图
1	Computer Use 是什么	范式转变、三层栈、核心循环、vs RPA
2	视觉 Grounding & VLA	Set-of-Marks、Coordinate vs Action grounding、UI-TARS 架构
3	三大商业 API	Anthropic / OpenAI / Google 三家定位与对比
4	Browser 开源框架	browser-use / Stagehand / Skyvern / UI-TARS-desktop
5	OS / Desktop 框架	OpenAdapt / Self-Operating / Cradle / Open Interpreter
6	评测 Benchmark	WebVoyager / Online-Mind2Web / OSWorld / AndroidWorld
7	视觉 Grounding 论文精读 ⭐	UI-TARS / OmniParser / SeeClick / CogAgent / SoM
8	生产部署与安全	沙箱、CAPTCHA、prompt injection、cost、审计
9	端到端实战 ⭐	browser-use 自动化电商订单

⏳ 关键论文与时间线

2023-10 ──── Set-of-Marks(Yang et al.)              视觉 grounding 起源
2024-01 ──── Mind2Web                                 web agent benchmark
2024-04 ──── OSWorld                                  跨 OS benchmark
2024-10 ──── Anthropic Computer Use ⭐                portable tool 范式
2024-12 ──── OmniParser(Microsoft)                  screen → SoM 解析
2025-01 ──── UI-TARS ⭐⭐(arXiv 2501.12326)         开源 native VLM agent
2025-01 ──── OpenAI Operator(早期 preview)           macOS-first computer use
2025-04 ──── UI-TARS-1.5 7B 开源                     SOTA 开源
2025-04 ──── An Illusion of Progress(arXiv 2504.01382)  反思 web agent 真实进度
2025-Q3 ──── Gemini Computer Use(Project Mariner)   Google 加入战局
2026-04 ──── OpenAI Codex Background Computer Use ⭐ macOS desktop 升级版

🌟 2024-2026 是 Computer Use 元年——每 3-6 个月就有新一轮重磅发布。

🛠️ 主流方案速查

商业 API

API	出品	定位	优势
Anthropic Computer Use	Anthropic	Portable / OS-agnostic	通用、长 horizon
OpenAI Codex Background CU	OpenAI	macOS desktop	深度集成 Codex
Gemini Computer Use	Google	Browser-anchored	DOM-aware、web 强

开源框架

框架	主战场	特色	Stars
browser-use	Browser	工业事实标准、89.1% WebVoyager	91K+
Stagehand(Browserbase)	Browser	act/extract/observe 三 API	中等
Skyvern	Browser(form-heavy)	2FA/CAPTCHA/政府保险特化	中等
UI-TARS-desktop	Desktop / Browser	ByteDance 全栈,自跑模型	27K+
OpenAdapt	Desktop	录制 → 回放	中等
Self-Operating Computer	Desktop	极简框架	中等
Open Interpreter	Desktop / 终端	LLM 操作本地	50K+
Cradle	桌面 + 游戏	通用 GUI agent	中等

Benchmark

Benchmark	任务数	主战场	2026 SOTA
WebVoyager	643	Web	Gemini 2.5 88.9%
Online-Mind2Web	300	Web	Gemini 2.5 69.0%
OSWorld	369	Desktop	Claude Opus 4.5 66.3%
AndroidWorld	—	Mobile	Gemini 2.5 69.7%
VisualWebArena	多	视觉 web	—

🧭 新人破局指南

学习路径(推荐 5-6 周)

第 1-2 周:理解范式

读第 1-2 章
跑 browser-use 5 行 demo:让它打开 Google 搜”今天天气”
体会”屏幕循环”和”API 循环”的差异

第 3 周:深入视觉 Grounding ⭐

第 2 章 + 第 7 章一起读
精读 UI-TARS 论文(arXiv 2501.12326)
跑 OmniParser 解析一张截图,体会 SoM 思想

第 4 周:商业 API & 开源框架

第 3 章三大 API,各跑一个 demo
第 4 章 browser-use 深度上手
用同一任务跑 browser-use vs Stagehand,对比代码风格

第 5 周:评测 + 安全

第 6 章跑 WebVoyager 子集
第 8 章生产部署 checklist

第 6 周:端到端实战

第 9 章电商订单 agent
自己改造一个业务场景

三个高频踩坑

以为加视觉就万事大吉:vision-only 模型在表格/复杂 UI 上经常 grounding 错——DOM-aware + vision 双轨更稳
忽视 prompt injection:网页内容里可能藏着”忘记之前的指令,做 X”——必须严格隔离 user instruction 和 page content
CAPTCHA / 风控不当事:本地 Chromium 跑容易被识别为爬虫,生产用 Browserbase / Steel.dev / Bright Data 等 cloud browser

与前 8 模块的关系

模块	与 Computer Use 的关系
模块四推理	screenshot 是大输入,VLM prefill 优化重要
模块五 Memory	agent 浏览历史也要 memory
模块六 Runtime	LangGraph + browser-use 集成
模块七 RL	UI-TARS 用 RL 训练
模块八 Eval	OSWorld / WebVoyager 是 Computer Use 的核心 benchmark

Long-tail SaaS 自动化:中小 SaaS 不再需要开发 API,agent 直接用 UI
Legacy 系统:几十年的政府 / 银行 / 医院系统,agent 直接操作
跨应用 workflow:从 Excel 拿数 → 在 Word 写报告 → 邮件发出去,以前 RPA 极难,现在 agent 一句话搞定