Computer / Browser Use Agents 学习路线
系统梳理 Computer Use Agent 的完整学习路线:从视觉 Grounding 到三大商业 API、开源框架、UI-TARS 论文、OSWorld 评测、生产部署
前 8 个模块的 agent 都活在”文本世界”——通过 API 调工具、写代码、查信息。但用户实际生活在 GUI 世界:浏览器、桌面软件、移动 app。让 agent 直接看屏幕、点鼠标、敲键盘——这就是 Computer Use,2024-2026 最热的前沿垂直方向。Anthropic 2024-10 首发 Computer Use,OpenAI 2026-04 推出 Codex Background Computer Use,Google 基于 Project Mariner 出 Gemini Computer Use,开源侧 browser-use 91K stars、Stagehand、Skyvern、UI-TARS 同时在卷。本文给 9 章 + 学习路线总览,从概念到论文到生产实战。
作者将根据该路线编写系列文章。
📑 目录
🖥️ 全景概览:从 API 到 GUI 的范式转变
传统 Agent(模块五-八):
Agent ──→ 调 search API → JSON
──→ 调 calculator API → 数字
──→ 调 DB API → 表格
Computer Use Agent(模块九):
Agent ──→ 看 screenshot
──→ 推理"该点哪里"
──→ 发 click(120, 340)
──→ 看新 screenshot
──→ 循环
🍎 比喻:
- 传统 Agent = 看说明书装家具(API 文档清晰、参数明确)
- Computer Use = 看着 IKEA 视频自己拼(只有屏幕、要靠视觉理解)
后者难度高一个数量级——但解锁的能力空间大几个数量级:任何能用屏幕做的事 agent 都能做。
🌐 Computer Use 三层栈
┌─────────────────────────────────────┐
│ Mobile(Android / iOS) │ AndroidWorld、移动场景
├─────────────────────────────────────┤
│ Desktop(macOS/Windows/Linux) │ OSWorld、办公场景
├─────────────────────────────────────┤
│ Browser │ WebVoyager、Mind2Web、网页场景
└─────────────────────────────────────┘
按难度:Browser < Desktop < Mobile(因为越往上 GUI 标准化越差)。
按市场成熟度:Browser 是最先成熟的(2024-2025 已有量产),Desktop 2025-2026 起飞,Mobile 2026 才刚刚开局。
📖 章节导览
| 章 | 主题 | 核心拼图 |
|---|---|---|
| 1 | Computer Use 是什么 | 范式转变、三层栈、核心循环、vs RPA |
| 2 | 视觉 Grounding & VLA | Set-of-Marks、Coordinate vs Action grounding、UI-TARS 架构 |
| 3 | 三大商业 API | Anthropic / OpenAI / Google 三家定位与对比 |
| 4 | Browser 开源框架 | browser-use / Stagehand / Skyvern / UI-TARS-desktop |
| 5 | OS / Desktop 框架 | OpenAdapt / Self-Operating / Cradle / Open Interpreter |
| 6 | 评测 Benchmark | WebVoyager / Online-Mind2Web / OSWorld / AndroidWorld |
| 7 | 视觉 Grounding 论文精读 ⭐ | UI-TARS / OmniParser / SeeClick / CogAgent / SoM |
| 8 | 生产部署与安全 | 沙箱、CAPTCHA、prompt injection、cost、审计 |
| 9 | 端到端实战 ⭐ | browser-use 自动化电商订单 |
⏳ 关键论文与时间线
2023-10 ──── Set-of-Marks(Yang et al.) 视觉 grounding 起源
2024-01 ──── Mind2Web web agent benchmark
2024-04 ──── OSWorld 跨 OS benchmark
2024-10 ──── Anthropic Computer Use ⭐ portable tool 范式
2024-12 ──── OmniParser(Microsoft) screen → SoM 解析
2025-01 ──── UI-TARS ⭐⭐(arXiv 2501.12326) 开源 native VLM agent
2025-01 ──── OpenAI Operator(早期 preview) macOS-first computer use
2025-04 ──── UI-TARS-1.5 7B 开源 SOTA 开源
2025-04 ──── An Illusion of Progress(arXiv 2504.01382) 反思 web agent 真实进度
2025-Q3 ──── Gemini Computer Use(Project Mariner) Google 加入战局
2026-04 ──── OpenAI Codex Background Computer Use ⭐ macOS desktop 升级版
🌟 2024-2026 是 Computer Use 元年——每 3-6 个月就有新一轮重磅发布。
🛠️ 主流方案速查
商业 API
| API | 出品 | 定位 | 优势 |
|---|---|---|---|
| Anthropic Computer Use | Anthropic | Portable / OS-agnostic | 通用、长 horizon |
| OpenAI Codex Background CU | OpenAI | macOS desktop | 深度集成 Codex |
| Gemini Computer Use | Browser-anchored | DOM-aware、web 强 |
开源框架
| 框架 | 主战场 | 特色 | Stars |
|---|---|---|---|
| browser-use | Browser | 工业事实标准、89.1% WebVoyager | 91K+ |
| Stagehand(Browserbase) | Browser | act/extract/observe 三 API | 中等 |
| Skyvern | Browser(form-heavy) | 2FA/CAPTCHA/政府保险特化 | 中等 |
| UI-TARS-desktop | Desktop / Browser | ByteDance 全栈,自跑模型 | 27K+ |
| OpenAdapt | Desktop | 录制 → 回放 | 中等 |
| Self-Operating Computer | Desktop | 极简框架 | 中等 |
| Open Interpreter | Desktop / 终端 | LLM 操作本地 | 50K+ |
| Cradle | 桌面 + 游戏 | 通用 GUI agent | 中等 |
Benchmark
| Benchmark | 任务数 | 主战场 | 2026 SOTA |
|---|---|---|---|
| WebVoyager | 643 | Web | Gemini 2.5 88.9% |
| Online-Mind2Web | 300 | Web | Gemini 2.5 69.0% |
| OSWorld | 369 | Desktop | Claude Opus 4.5 66.3% |
| AndroidWorld | — | Mobile | Gemini 2.5 69.7% |
| VisualWebArena | 多 | 视觉 web | — |
🧭 新人破局指南
学习路径(推荐 5-6 周)
第 1-2 周:理解范式
- 读第 1-2 章
- 跑 browser-use 5 行 demo:让它打开 Google 搜”今天天气”
- 体会”屏幕循环”和”API 循环”的差异
第 3 周:深入视觉 Grounding ⭐
- 第 2 章 + 第 7 章一起读
- 精读 UI-TARS 论文(arXiv 2501.12326)
- 跑 OmniParser 解析一张截图,体会 SoM 思想
第 4 周:商业 API & 开源框架
- 第 3 章 三大 API,各跑一个 demo
- 第 4 章 browser-use 深度上手
- 用同一任务跑 browser-use vs Stagehand,对比代码风格
第 5 周:评测 + 安全
- 第 6 章跑 WebVoyager 子集
- 第 8 章生产部署 checklist
第 6 周:端到端实战
- 第 9 章电商订单 agent
- 自己改造一个业务场景
三个高频踩坑
- 以为加视觉就万事大吉:vision-only 模型在表格/复杂 UI 上经常 grounding 错——DOM-aware + vision 双轨更稳
- 忽视 prompt injection:网页内容里可能藏着”忘记之前的指令,做 X”——必须严格隔离 user instruction 和 page content
- CAPTCHA / 风控不当事:本地 Chromium 跑容易被识别为爬虫,生产用 Browserbase / Steel.dev / Bright Data 等 cloud browser
与前 8 模块的关系
| 模块 | 与 Computer Use 的关系 |
|---|---|
| 模块四 推理 | screenshot 是大输入,VLM prefill 优化重要 |
| 模块五 Memory | agent 浏览历史也要 memory |
| 模块六 Runtime | LangGraph + browser-use 集成 |
| 模块七 RL | UI-TARS 用 RL 训练 |
| 模块八 Eval | OSWorld / WebVoyager 是 Computer Use 的核心 benchmark |
🌐 核心思维:屏幕是新 API
”Computer Use is the universal API”
这是 Anthropic CEO Dario Amodei 的名言——任何能用 GUI 做的事都能让 agent 做,无需等待 SaaS 厂家开放官方 API。
工业含义
- Long-tail SaaS 自动化:中小 SaaS 不再需要开发 API,agent 直接用 UI
- Legacy 系统:几十年的政府 / 银行 / 医院系统,agent 直接操作
- 跨应用 workflow:从 Excel 拿数 → 在 Word 写报告 → 邮件发出去,以前 RPA 极难,现在 agent 一句话搞定
风险
- 屏幕级访问 = 全 OS 权限:必须严格沙箱
- 网页 prompt injection:攻击面剧增
- Cost 高:每秒钟一张 screenshot,token 烧得快
📚 参考资料
论文 ⭐
- UI-TARS:arXiv 2501.12326 | HuggingFace
- OmniParser v2(微软):github.com/microsoft/OmniParser
- SeeClick:arXiv 2401.10935
- Set-of-Marks(Yang et al., 2023):arXiv 2310.11441
- An Illusion of Progress(Web Agents):arXiv 2504.01382
- CogAgent(Zhipu):arXiv 2312.08914
商业 API
- Anthropic Computer Use:anthropic.com/news/3-5-models-and-computer-use
- OpenAI Computer-Using Agent:openai.com/index/computer-using-agent
- Google Gemini Computer Use API(Project Mariner)
开源框架
- browser-use:github.com/browser-use/browser-use
- Stagehand:github.com/browserbase/stagehand
- Skyvern:github.com/Skyvern-AI/skyvern
- UI-TARS-desktop:github.com/bytedance/UI-TARS-desktop
- OpenAdapt:github.com/OpenAdaptAI/OpenAdapt
- Open Interpreter:github.com/OpenInterpreter/open-interpreter
- Self-Operating Computer:github.com/OthersideAI/self-operating-computer
Benchmark
- WebVoyager:github.com/MinorJerry/WebVoyager
- Online-Mind2Web:github.com/OSU-NLP-Group/Mind2Web
- OSWorld:os-world.github.io
- AndroidWorld:github.com/google-research/android_world
综合资源
- Computer Use Agents 2026 (Digital Applied):博文
- Best Browser Agents 2026 (Firecrawl):博文
- AI Computer-Use Benchmarks Guide 2026:O-Mega
- Browser-use vs Stagehand:Skyvern Blog
- AI Browser Agent Leaderboards:steel.dev