跳到主要内容
AIInfra学习路线

Computer / Browser Use Agents 学习路线

系统梳理 Computer Use Agent 的完整学习路线:从视觉 Grounding 到三大商业 API、开源框架、UI-TARS 论文、OSWorld 评测、生产部署

Computer Use Browser Use GUI Agent 学习路线 UI-TARS browser-use Anthropic Operator

前 8 个模块的 agent 都活在”文本世界”——通过 API 调工具、写代码、查信息。但用户实际生活在 GUI 世界:浏览器、桌面软件、移动 app。让 agent 直接看屏幕、点鼠标、敲键盘——这就是 Computer Use,2024-2026 最热的前沿垂直方向。Anthropic 2024-10 首发 Computer Use,OpenAI 2026-04 推出 Codex Background Computer Use,Google 基于 Project Mariner 出 Gemini Computer Use,开源侧 browser-use 91K stars、Stagehand、Skyvern、UI-TARS 同时在卷。本文给 9 章 + 学习路线总览,从概念到论文到生产实战。

作者将根据该路线编写系列文章。

📑 目录


🖥️ 全景概览:从 API 到 GUI 的范式转变

传统 Agent(模块五-八):
  Agent ──→ 调 search API → JSON
        ──→ 调 calculator API → 数字
        ──→ 调 DB API → 表格

Computer Use Agent(模块九):
  Agent ──→ 看 screenshot
        ──→ 推理"该点哪里"
        ──→ 发 click(120, 340)
        ──→ 看新 screenshot
        ──→ 循环

🍎 比喻:

  • 传统 Agent = 看说明书装家具(API 文档清晰、参数明确)
  • Computer Use = 看着 IKEA 视频自己拼(只有屏幕、要靠视觉理解)

后者难度高一个数量级——但解锁的能力空间大几个数量级:任何能用屏幕做的事 agent 都能做


🌐 Computer Use 三层栈

┌─────────────────────────────────────┐
│  Mobile(Android / iOS)              │  AndroidWorld、移动场景
├─────────────────────────────────────┤
│  Desktop(macOS/Windows/Linux)        │  OSWorld、办公场景
├─────────────────────────────────────┤
│  Browser                             │  WebVoyager、Mind2Web、网页场景
└─────────────────────────────────────┘

按难度:Browser < Desktop < Mobile(因为越往上 GUI 标准化越差)。

按市场成熟度:Browser 是最先成熟的(2024-2025 已有量产),Desktop 2025-2026 起飞,Mobile 2026 才刚刚开局。


📖 章节导览

主题核心拼图
1Computer Use 是什么范式转变、三层栈、核心循环、vs RPA
2视觉 Grounding & VLASet-of-Marks、Coordinate vs Action grounding、UI-TARS 架构
3三大商业 APIAnthropic / OpenAI / Google 三家定位与对比
4Browser 开源框架browser-use / Stagehand / Skyvern / UI-TARS-desktop
5OS / Desktop 框架OpenAdapt / Self-Operating / Cradle / Open Interpreter
6评测 BenchmarkWebVoyager / Online-Mind2Web / OSWorld / AndroidWorld
7视觉 Grounding 论文精读 ⭐UI-TARS / OmniParser / SeeClick / CogAgent / SoM
8生产部署与安全沙箱、CAPTCHA、prompt injection、cost、审计
9端到端实战 ⭐browser-use 自动化电商订单

⏳ 关键论文与时间线

2023-10 ──── Set-of-Marks(Yang et al.)              视觉 grounding 起源
2024-01 ──── Mind2Web                                 web agent benchmark
2024-04 ──── OSWorld                                  跨 OS benchmark
2024-10 ──── Anthropic Computer Use ⭐                portable tool 范式
2024-12 ──── OmniParser(Microsoft)                  screen → SoM 解析
2025-01 ──── UI-TARS ⭐⭐(arXiv 2501.12326)         开源 native VLM agent
2025-01 ──── OpenAI Operator(早期 preview)           macOS-first computer use
2025-04 ──── UI-TARS-1.5 7B 开源                     SOTA 开源
2025-04 ──── An Illusion of Progress(arXiv 2504.01382)  反思 web agent 真实进度
2025-Q3 ──── Gemini Computer Use(Project Mariner)   Google 加入战局
2026-04 ──── OpenAI Codex Background Computer Use ⭐ macOS desktop 升级版

🌟 2024-2026 是 Computer Use 元年——每 3-6 个月就有新一轮重磅发布。


🛠️ 主流方案速查

商业 API

API出品定位优势
Anthropic Computer UseAnthropicPortable / OS-agnostic通用、长 horizon
OpenAI Codex Background CUOpenAImacOS desktop深度集成 Codex
Gemini Computer UseGoogleBrowser-anchoredDOM-aware、web 强

开源框架

框架主战场特色Stars
browser-useBrowser工业事实标准、89.1% WebVoyager91K+
Stagehand(Browserbase)Browseract/extract/observe 三 API中等
SkyvernBrowser(form-heavy)2FA/CAPTCHA/政府保险特化中等
UI-TARS-desktopDesktop / BrowserByteDance 全栈,自跑模型27K+
OpenAdaptDesktop录制 → 回放中等
Self-Operating ComputerDesktop极简框架中等
Open InterpreterDesktop / 终端LLM 操作本地50K+
Cradle桌面 + 游戏通用 GUI agent中等

Benchmark

Benchmark任务数主战场2026 SOTA
WebVoyager643WebGemini 2.5 88.9%
Online-Mind2Web300WebGemini 2.5 69.0%
OSWorld369DesktopClaude Opus 4.5 66.3%
AndroidWorldMobileGemini 2.5 69.7%
VisualWebArena视觉 web

🧭 新人破局指南

学习路径(推荐 5-6 周)

第 1-2 周:理解范式

  • 读第 1-2 章
  • 跑 browser-use 5 行 demo:让它打开 Google 搜”今天天气”
  • 体会”屏幕循环”和”API 循环”的差异

第 3 周:深入视觉 Grounding ⭐

  • 第 2 章 + 第 7 章一起读
  • 精读 UI-TARS 论文(arXiv 2501.12326)
  • 跑 OmniParser 解析一张截图,体会 SoM 思想

第 4 周:商业 API & 开源框架

  • 第 3 章 三大 API,各跑一个 demo
  • 第 4 章 browser-use 深度上手
  • 用同一任务跑 browser-use vs Stagehand,对比代码风格

第 5 周:评测 + 安全

  • 第 6 章跑 WebVoyager 子集
  • 第 8 章生产部署 checklist

第 6 周:端到端实战

  • 第 9 章电商订单 agent
  • 自己改造一个业务场景

三个高频踩坑

  1. 以为加视觉就万事大吉:vision-only 模型在表格/复杂 UI 上经常 grounding 错——DOM-aware + vision 双轨更稳
  2. 忽视 prompt injection:网页内容里可能藏着”忘记之前的指令,做 X”——必须严格隔离 user instruction 和 page content
  3. CAPTCHA / 风控不当事:本地 Chromium 跑容易被识别为爬虫,生产用 Browserbase / Steel.dev / Bright Data 等 cloud browser

与前 8 模块的关系

模块与 Computer Use 的关系
模块四 推理screenshot 是大输入,VLM prefill 优化重要
模块五 Memoryagent 浏览历史也要 memory
模块六 RuntimeLangGraph + browser-use 集成
模块七 RLUI-TARS 用 RL 训练
模块八 EvalOSWorld / WebVoyager 是 Computer Use 的核心 benchmark

🌐 核心思维:屏幕是新 API

”Computer Use is the universal API”

这是 Anthropic CEO Dario Amodei 的名言——任何能用 GUI 做的事都能让 agent 做,无需等待 SaaS 厂家开放官方 API。

工业含义

  • Long-tail SaaS 自动化:中小 SaaS 不再需要开发 API,agent 直接用 UI
  • Legacy 系统:几十年的政府 / 银行 / 医院系统,agent 直接操作
  • 跨应用 workflow:从 Excel 拿数 → 在 Word 写报告 → 邮件发出去,以前 RPA 极难,现在 agent 一句话搞定

风险

  • 屏幕级访问 = 全 OS 权限:必须严格沙箱
  • 网页 prompt injection:攻击面剧增
  • Cost 高:每秒钟一张 screenshot,token 烧得快

📚 参考资料

论文 ⭐

商业 API

开源框架

Benchmark

综合资源

  • Computer Use Agents 2026 (Digital Applied):博文
  • Best Browser Agents 2026 (Firecrawl):博文
  • AI Computer-Use Benchmarks Guide 2026:O-Mega
  • Browser-use vs Stagehand:Skyvern Blog
  • AI Browser Agent Leaderboards:steel.dev