第1章:Computer Use 是什么
从调 API 到用屏幕——agent 范式根本转变,三层栈、核心循环、与 RPA 的本质区别、应用场景
5 行 demo 给 LLM 接 search API 已经过时——2024-10 Anthropic 发布 Computer Use 那天起,agent 不再被困在”有 API 的世界”。它能直接看你的屏幕、点鼠标、敲键盘——任何能用 GUI 做的事都成了它的 API。这一章把”Computer Use 到底是什么、为什么现在火、与 RPA 的本质区别、应用场景”讲清,让你知道剩下 8 章都在解决什么。
📑 目录
- 1. 一段对比:API Agent vs Computer Use Agent
- 2. Computer Use 三层栈
- 3. 核心循环:Perceive → Reason → Act
- 4. 为什么 2024-2026 突然爆发
- 5. 与传统 RPA 的本质区别
- 6. 应用场景全景
- 自我检验清单
- 参考资料
1. 一段对比:API Agent vs Computer Use Agent
1.1 经典 API Agent
任务:查北京天气
# 传统 API agent
agent.invoke("北京天气怎么样?")
# 内部:
# 1. LLM 决定调 search API
# 2. search("北京天气") → JSON {"temp": 22, "condition": "晴"}
# 3. LLM 整理:北京 22°C 晴
前提:必须有 search 这个 API 可用。
1.2 Computer Use Agent
# Computer Use agent
agent.task("查北京天气")
# 内部:
# 1. screenshot → "桌面"
# 2. LLM 看到 → 决定打开浏览器
# 3. action: click(Chrome icon)
# 4. screenshot → "Chrome 启动了"
# 5. action: type("baidu.com"), press(Enter)
# 6. screenshot → "百度首页"
# 7. action: click(搜索框), type("北京天气"), press(Enter)
# 8. screenshot → "搜索结果页,看到 22°C 晴"
# 9. LLM 提取:北京 22°C 晴
前提:有屏幕、鼠标、键盘——任何用户能干的事它都能干。
1.3 区别本质
| 维度 | API Agent | Computer Use Agent |
|---|---|---|
| 输入 | 结构化 JSON | screenshot(像素) |
| 输出 | 函数调用参数 | click(x, y) / type(…) |
| 前提 | API 提供方愿意开 | 任何 GUI 软件都能用 |
| 速度 | 毫秒 | 秒级 |
| 成本 | 低 | 高(VLM + 多 turn) |
| 覆盖场景 | 有 API 的服务 | 几乎一切(包括没 API 的 legacy 系统) |
🌟 核心解锁:没有 API 的”长尾世界”——中小 SaaS、政府系统、内部 ERP、桌面老软件,以前 agent 完全不能用,现在能用了。
2. Computer Use 三层栈
┌──────────────────────────────────────────┐
│ Mobile(Android / iOS) │ AndroidWorld、移动支付、社交
├──────────────────────────────────────────┤
│ Desktop(macOS / Windows / Linux) │ OSWorld、办公、设计、开发
├──────────────────────────────────────────┤
│ Browser(Chrome / Edge / Safari) │ WebVoyager、Mind2Web、Web 应用
└──────────────────────────────────────────┘
2.1 难度递增
| 层 | 难度 | 原因 |
|---|---|---|
| Browser | ★★ | DOM 可读、文本元素多、JS API 可用 |
| Desktop | ★★★★ | OS 多样、原生控件多、accessibility API 不统一 |
| Mobile | ★★★★★ | 屏幕小、滑动手势、跨 app、ROM 碎片化 |
2.2 工业成熟度
Browser ──── 2024-2025 量产(browser-use 91K stars 即证)
Desktop ──── 2025-2026 起飞(Anthropic / OpenAI 推出)
Mobile ──── 2026 才开局(AndroidWorld / Mobile-Use 等)
🍎 建议路径:先精通 Browser,再扩展 Desktop。Mobile 现在还在科研期。
3. 核心循环:Perceive → Reason → Act
┌──────────────────────────────────────────┐
│ ① Perceive(感知) │
│ screenshot / DOM / accessibility tree │
└──────────────────────────────────────────┘
↓
┌──────────────────────────────────────────┐
│ ② Reason(推理) │
│ VLM 看屏幕 → 决定下一步 action │
│ "我需要点击搜索框" │
└──────────────────────────────────────────┘
↓
┌──────────────────────────────────────────┐
│ ③ Act(执行) │
│ click(x, y) / type(text) / scroll │
│ keyboard / mouse 事件发到 OS / browser │
└──────────────────────────────────────────┘
↓
(回到 ①,新 screenshot)
3.1 单次循环延迟
Screenshot capture: ~50-200ms
VLM forward: 1-5s(VLM 输入大,慢)
Action execution: 50-500ms(等 UI 响应)
─────────────────────
单步循环: 2-6s
完成一个任务通常需要 5-30 步——总耗时 30s-3min。
3.2 与 ReAct 的关系
模块六第 2 章讲过 ReAct(Reason + Act 循环)——Computer Use 是 ReAct 的视觉版本:
ReAct(API Agent): Computer Use Agent:
Thought Thought (基于 screenshot)
Action: tool_call(...) Action: click(120, 340)
Observation: tool_result Observation: 新 screenshot
... ...
🌟 本质相同,只是 observation/action 模态变了——这就是为什么模块六的 LangGraph 等 runtime 框架完全适用 Computer Use。
4. 为什么 2024-2026 突然爆发
4.1 三个支柱同时成熟
支柱 1:VLM 能力
- GPT-4V(2023-09)首次让 LLM 真正”看图”
- Claude 3 / 3.5(2024)视觉理解大幅提升
- GPT-4o / Claude Sonnet 4.x(2025)能精准 grounding 到 UI 元素坐标
支柱 2:Screenshot 处理工程化
- OmniParser(微软)/ SeeClick / UI-TARS 等专用模型把 screen 解析做到工业级
- Set-of-Marks 技术让 LLM “看图说话”变成”看图打标”
支柱 3:用例驱动 + 商业模式清晰
- 客服自动化、表单填写、跨 SaaS workflow 等用例巨大
- Enterprise 愿意付钱(Anthropic Operator 企业版每月 $几千起)
4.2 转折点
2023-10 ──── Set-of-Marks 思想首次提出
2024-10 ──── Anthropic Computer Use ⭐ 三巨头之首
2025-01 ──── UI-TARS(开源 native VLM agent)+ OpenAI Operator
2025-Q3 ──── Google Gemini Computer Use
2026-04 ──── OpenAI Codex Background CU,macOS 量产
🌟 “Computer Use 元年”——这两年从论文走到产品到生态完整。
5. 与传统 RPA 的本质区别
很多人会问:这不就是 UiPath / Automation Anywhere 那种 RPA 吗?
5.1 传统 RPA 的特点
RPA Flow(2010s 范式):
录制宏(record macro)
─→ 固定坐标 click(100, 200)
─→ DOM selector .login-button
─→ 严格按步骤执行
─→ 任何 UI 微调就崩
核心问题:hard-coded、脆弱、不能泛化。
5.2 Computer Use 的差异
| 维度 | 传统 RPA | Computer Use Agent |
|---|---|---|
| 执行方式 | 录制脚本回放 | LLM 实时看屏决策 |
| 适应 UI 变化 | 极差(改个按钮位置就崩) | 强(LLM 重新看图找按钮) |
| 写脚本成本 | 几小时 / 流程 | 几句自然语言 |
| 处理异常 | 异常处理代码硬写 | LLM 自然 reason 处理 |
| 学习曲线 | 高(培训 RPA 工程师) | 低(写 prompt) |
| 成本 | 软件 license($万) | LLM token($/任务) |
5.3 Layout-Resistant Automation
Skyvern 等新一代框架打的招牌:“Layout-resistant”——UI 改了也能跑
实现:不用 selector,用 LLM 看图找 element。这是 Computer Use 比 RPA 强的核心差异。
🌟 结论:Computer Use Agent 是 RPA 的”AI 升级版”——保留”自动化 GUI”的目的,革掉”硬编码脚本”的旧实现。
6. 应用场景全景
6.1 To-C(消费者)
| 场景 | 例子 |
|---|---|
| 个人助理 | OpenAI Operator 帮你订机票、订餐、研究 |
| 浏览器 copilot | 看着用户浏览,主动给建议 |
| 语音 agent + 屏幕动作 | ”帮我把这表导出 PDF 发给老板” |
6.2 To-B(企业)
| 场景 | 例子 |
|---|---|
| 跨 SaaS workflow | 从 Salesforce 拿客户 → 在 HubSpot 发邮件 → 更新 Excel |
| 合规填表 | 政府 / 保险 / 医疗 表单自动填(Skyvern 主战场) |
| 测试自动化 | 替代 Selenium,自然语言写测试 |
| 客服自动化 | 操作内部 ERP / CRM 帮客户处理工单 |
| Legacy 系统集成 | 没 API 的老系统,agent 直接 GUI 操作 |
6.3 研究 / 数据收集
| 场景 | 例子 |
|---|---|
| Web research agent | 多 site 比价、文献综述、新闻聚合 |
| Lead generation | 自动从 LinkedIn / 各网站收集信息 |
| Competitive intel | 监控竞对网站、产品变化 |
6.4 开发
| 场景 | 例子 |
|---|---|
| Codex Background CU | 在虚拟桌面跑命令、安装包、调试 |
| QA testing | 自然语言写 E2E 测试 |
| Visual regression | 截图对比、UI bug 发现 |
✅ 自我检验清单
- 范式区别:能用一段对比讲清 API Agent vs Computer Use Agent
- 三层栈:能默写 Browser / Desktop / Mobile,以及难度和成熟度
- 核心循环:能画 Perceive → Reason → Act 三步流程
- 延迟估算:能算单步循环 2-6s 的来源(screenshot + VLM + action)
- 与 ReAct 关系:能解释 Computer Use 是”视觉版 ReAct”
- 三个支柱:能列出 VLM / 工程化 / 用例 三个驱动力
- vs RPA:能用 6 个维度对比传统 RPA 和 Computer Use Agent
- Layout-resistant:能解释为什么 Computer Use 比 RPA 抗 UI 变化
- 应用场景:能列出 4 类(To-C / To-B / 研究 / 开发)各 3 个例子
📚 参考资料
商业里程碑
- Anthropic Computer Use(2024-10):anthropic.com/news/3-5-models-and-computer-use
- OpenAI Computer-Using Agent(2025-01):openai.com/index/computer-using-agent
- Codex Background Computer Use(2026-04)
- Google Gemini Computer Use API
综述与博客
- What are Computer-Use Agents (MarkTechPost):博文
- Computer Use Agents 2026 (Digital Applied):博文
- Best Browser Agents 2026 (Firecrawl):博文
入门论文
- Set-of-Marks (Yang et al., 2023):arXiv 2310.11441
- UI-TARS (ByteDance, 2025):arXiv 2501.12326