第1章：Computer Use 是什么

5 行 demo 给 LLM 接 search API 已经过时——2024-10 Anthropic 发布 Computer Use 那天起,agent 不再被困在”有 API 的世界”。它能直接看你的屏幕、点鼠标、敲键盘——任何能用 GUI 做的事都成了它的 API。这一章把”Computer Use 到底是什么、为什么现在火、与 RPA 的本质区别、应用场景”讲清,让你知道剩下 8 章都在解决什么。

📑 目录

1. 一段对比:API Agent vs Computer Use Agent
2. Computer Use 三层栈
3. 核心循环:Perceive → Reason → Act
4. 为什么 2024-2026 突然爆发
5. 与传统 RPA 的本质区别
6. 应用场景全景
自我检验清单
参考资料

1. 一段对比:API Agent vs Computer Use Agent

1.1 经典 API Agent

任务:查北京天气

# 传统 API agent
agent.invoke("北京天气怎么样?")
# 内部:
#  1. LLM 决定调 search API
#  2. search("北京天气") → JSON {"temp": 22, "condition": "晴"}
#  3. LLM 整理:北京 22°C 晴

前提:必须有 search 这个 API 可用。

1.2 Computer Use Agent

# Computer Use agent
agent.task("查北京天气")
# 内部:
#  1. screenshot → "桌面"
#  2. LLM 看到 → 决定打开浏览器
#  3. action: click(Chrome icon)
#  4. screenshot → "Chrome 启动了"
#  5. action: type("baidu.com"), press(Enter)
#  6. screenshot → "百度首页"
#  7. action: click(搜索框), type("北京天气"), press(Enter)
#  8. screenshot → "搜索结果页,看到 22°C 晴"
#  9. LLM 提取:北京 22°C 晴

前提:有屏幕、鼠标、键盘——任何用户能干的事它都能干。

1.3 区别本质

维度	API Agent	Computer Use Agent
输入	结构化 JSON	screenshot(像素)
输出	函数调用参数	click(x, y) / type(…)
前提	API 提供方愿意开	任何 GUI 软件都能用
速度	毫秒	秒级
成本	低	高(VLM + 多 turn)
覆盖场景	有 API 的服务	几乎一切(包括没 API 的 legacy 系统)

🌟 核心解锁:没有 API 的”长尾世界”——中小 SaaS、政府系统、内部 ERP、桌面老软件,以前 agent 完全不能用,现在能用了。

2. Computer Use 三层栈

┌──────────────────────────────────────────┐
│  Mobile(Android / iOS)                  │  AndroidWorld、移动支付、社交
├──────────────────────────────────────────┤
│  Desktop(macOS / Windows / Linux)        │  OSWorld、办公、设计、开发
├──────────────────────────────────────────┤
│  Browser(Chrome / Edge / Safari)        │  WebVoyager、Mind2Web、Web 应用
└──────────────────────────────────────────┘

2.1 难度递增

层	难度	原因
Browser	★★	DOM 可读、文本元素多、JS API 可用
Desktop	★★★★	OS 多样、原生控件多、accessibility API 不统一
Mobile	★★★★★	屏幕小、滑动手势、跨 app、ROM 碎片化

2.2 工业成熟度

Browser  ──── 2024-2025 量产(browser-use 91K stars 即证)
Desktop  ──── 2025-2026 起飞(Anthropic / OpenAI 推出)
Mobile   ──── 2026 才开局(AndroidWorld / Mobile-Use 等)

🍎 建议路径:先精通 Browser,再扩展 Desktop。Mobile 现在还在科研期。

3. 核心循环:Perceive → Reason → Act

┌──────────────────────────────────────────┐
│  ① Perceive(感知)                        │
│     screenshot / DOM / accessibility tree  │
└──────────────────────────────────────────┘
                  ↓
┌──────────────────────────────────────────┐
│  ② Reason(推理)                          │
│     VLM 看屏幕 → 决定下一步 action          │
│     "我需要点击搜索框"                      │
└──────────────────────────────────────────┘
                  ↓
┌──────────────────────────────────────────┐
│  ③ Act(执行)                             │
│     click(x, y) / type(text) / scroll      │
│     keyboard / mouse 事件发到 OS / browser   │
└──────────────────────────────────────────┘
                  ↓
            (回到 ①,新 screenshot)

3.1 单次循环延迟

Screenshot capture:     ~50-200ms
VLM forward:           1-5s(VLM 输入大,慢)
Action execution:       50-500ms(等 UI 响应)
─────────────────────
单步循环:              2-6s

完成一个任务通常需要 5-30 步——总耗时 30s-3min。

3.2 与 ReAct 的关系

模块六第 2 章讲过 ReAct(Reason + Act 循环)——Computer Use 是 ReAct 的视觉版本:

ReAct(API Agent):           Computer Use Agent:
  Thought                       Thought (基于 screenshot)
  Action: tool_call(...)        Action: click(120, 340)
  Observation: tool_result      Observation: 新 screenshot
  ...                            ...

🌟 本质相同,只是 observation/action 模态变了——这就是为什么模块六的 LangGraph 等 runtime 框架完全适用 Computer Use。

4. 为什么 2024-2026 突然爆发

4.1 三个支柱同时成熟

支柱 1:VLM 能力

GPT-4V(2023-09)首次让 LLM 真正”看图”
Claude 3 / 3.5(2024)视觉理解大幅提升
GPT-4o / Claude Sonnet 4.x(2025)能精准 grounding 到 UI 元素坐标

支柱 2:Screenshot 处理工程化

OmniParser(微软)/ SeeClick / UI-TARS 等专用模型把 screen 解析做到工业级
Set-of-Marks 技术让 LLM “看图说话”变成”看图打标”

支柱 3:用例驱动 + 商业模式清晰

客服自动化、表单填写、跨 SaaS workflow 等用例巨大
Enterprise 愿意付钱(Anthropic Operator 企业版每月 $几千起)

4.2 转折点

2023-10 ──── Set-of-Marks 思想首次提出
2024-10 ──── Anthropic Computer Use ⭐ 三巨头之首
2025-01 ──── UI-TARS(开源 native VLM agent)+ OpenAI Operator
2025-Q3 ──── Google Gemini Computer Use
2026-04 ──── OpenAI Codex Background CU,macOS 量产

🌟 “Computer Use 元年”——这两年从论文走到产品到生态完整。

5. 与传统 RPA 的本质区别

很多人会问:这不就是 UiPath / Automation Anywhere 那种 RPA 吗?

5.1 传统 RPA 的特点

RPA Flow(2010s 范式):
  录制宏(record macro)
  ─→ 固定坐标 click(100, 200)
  ─→ DOM selector .login-button
  ─→ 严格按步骤执行
  ─→ 任何 UI 微调就崩

核心问题:hard-coded、脆弱、不能泛化。

5.2 Computer Use 的差异

维度	传统 RPA	Computer Use Agent
执行方式	录制脚本回放	LLM 实时看屏决策
适应 UI 变化	极差(改个按钮位置就崩)	强(LLM 重新看图找按钮)
写脚本成本	几小时 / 流程	几句自然语言
处理异常	异常处理代码硬写	LLM 自然 reason 处理
学习曲线	高(培训 RPA 工程师)	低(写 prompt)
成本	软件 license($万)	LLM token($/任务)

5.3 Layout-Resistant Automation

Skyvern 等新一代框架打的招牌:“Layout-resistant”——UI 改了也能跑

实现:不用 selector,用 LLM 看图找 element。这是 Computer Use 比 RPA 强的核心差异。

🌟 结论:Computer Use Agent 是 RPA 的”AI 升级版”——保留”自动化 GUI”的目的,革掉”硬编码脚本”的旧实现。

6. 应用场景全景

6.1 To-C(消费者)

场景	例子
个人助理	OpenAI Operator 帮你订机票、订餐、研究
浏览器 copilot	看着用户浏览,主动给建议
语音 agent + 屏幕动作	”帮我把这表导出 PDF 发给老板”

6.2 To-B(企业)

场景	例子
跨 SaaS workflow	从 Salesforce 拿客户 → 在 HubSpot 发邮件 → 更新 Excel
合规填表	政府 / 保险 / 医疗表单自动填(Skyvern 主战场)
测试自动化	替代 Selenium,自然语言写测试
客服自动化	操作内部 ERP / CRM 帮客户处理工单
Legacy 系统集成	没 API 的老系统,agent 直接 GUI 操作

6.3 研究 / 数据收集

场景	例子
Web research agent	多 site 比价、文献综述、新闻聚合
Lead generation	自动从 LinkedIn / 各网站收集信息
Competitive intel	监控竞对网站、产品变化

6.4 开发

场景	例子
Codex Background CU	在虚拟桌面跑命令、安装包、调试
QA testing	自然语言写 E2E 测试
Visual regression	截图对比、UI bug 发现

✅ 自我检验清单

范式区别:能用一段对比讲清 API Agent vs Computer Use Agent
三层栈:能默写 Browser / Desktop / Mobile,以及难度和成熟度
核心循环:能画 Perceive → Reason → Act 三步流程
延迟估算:能算单步循环 2-6s 的来源(screenshot + VLM + action)
与 ReAct 关系:能解释 Computer Use 是”视觉版 ReAct”
三个支柱:能列出 VLM / 工程化 / 用例三个驱动力
vs RPA:能用 6 个维度对比传统 RPA 和 Computer Use Agent
Layout-resistant:能解释为什么 Computer Use 比 RPA 抗 UI 变化
应用场景:能列出 4 类(To-C / To-B / 研究 / 开发)各 3 个例子

📚 参考资料

商业里程碑

Anthropic Computer Use(2024-10):anthropic.com/news/3-5-models-and-computer-use
OpenAI Computer-Using Agent(2025-01):openai.com/index/computer-using-agent
Codex Background Computer Use(2026-04)
Google Gemini Computer Use API

综述与博客

What are Computer-Use Agents (MarkTechPost):博文
Computer Use Agents 2026 (Digital Applied):博文
Best Browser Agents 2026 (Firecrawl):博文

入门论文

Set-of-Marks (Yang et al., 2023):arXiv 2310.11441
UI-TARS (ByteDance, 2025):arXiv 2501.12326