跳到主要内容
Computer Use

第5章:OS / Desktop Use 框架 —— 超越 Browser

桌面层 Computer Use 开源框架:OpenAdapt、Self-Operating Computer、Cradle、Open Interpreter、OS-Copilot 等

Desktop Agent OpenAdapt Open Interpreter Cradle OS Agent

Browser 之外是更大的世界——办公软件、设计工具、IDE、终端、游戏。Browser 已被 browser-use 等卷到 89% 性能,但桌面 (OSWorld) 现在 SOTA 才 66%——这是 2026 最大的开发空间。本章把桌面层主流开源框架横评:OpenAdapt(record + replay)、Self-Operating Computer(极简)、Cradle(游戏 + 通用)、Open Interpreter(终端 + 计算机)等,讲清各自的定位和适用边界。

📑 目录


1. 桌面 Use 与 Browser Use 的差异

维度BrowserDesktop
标准化DOM、URL、HTML 标准各 OS 各应用各异
元素提取DOM tree(精确)accessibility tree(不全 / 不一致)
输入设备鼠标 + 键盘+ 多键组合 / 触控板 / 多屏
反馈URL 变化任意视觉变化
Sandbox容易(headless Chrome)难(VM / 远程桌面)
复杂度

🌟 关键现状:桌面 Computer Use 比 Browser 落后约 20%(OSWorld 66% vs WebVoyager 89%),这给开源生态留了大量空间。


2. Anthropic Computer Use SDK(回顾)

第 3 章详讲过——Anthropic API 是最强的桌面 use 商业方案:

  • 跨 OS(Linux / macOS / Windows)
  • screenshot + click/type 工具
  • Claude Opus 4.5 OSWorld 66.3%(SOTA)

但需要写自己的 loop。下面看开源方案。


3. OpenAdapt:Record + Replay

GitHub:github.com/OpenAdaptAI/OpenAdapt

3.1 哲学

“录制人类操作 → AI 学会回放 → 泛化到新场景”

不需要”agent 从零探索”——让用户先录一遍,AI 从录像里学

3.2 工作流

1. Record:用户做一遍任务,OpenAdapt 录屏 + 鼠标键盘事件
2. Process:AI 分析录像 → 提取 high-level 步骤
3. Replay:在新输入下回放,AI 处理细节差异

3.3 优势

冷启动好:不用 prompt 工程,录一遍就行 ✅ 企业友好:业务流程录一次,跑无数遍 ✅ 可解释:每步都对应录制片段

3.4 局限

  • 录制阶段仍需要用户参与
  • 高度变化的场景(如 dynamic UI)回放时会崩
  • 主要是 RPA-on-AI,不是真正的”探索式 agent”

3.5 适合场景

  • 重复性企业工作流(月报、对账、批量录入)
  • 老软件 / 内部 ERP 自动化

4. Self-Operating Computer:极简框架

GitHub:github.com/OthersideAI/self-operating-computer

4.1 哲学

“几行代码让 GPT-4V 操作你的电脑”

4.2 最简代码

from self_operating_computer import SelfOperatingComputer

agent = SelfOperatingComputer(
    model="gpt-4o",
    objective="打开 Chrome 浏览器,搜索'今日油价'",
)
agent.run()

3 行代码,跑起来就看着鼠标自己动。

4.3 适合谁

  • 个人玩家
  • 教学 / demo
  • 简单 PoC

不适合:生产、复杂任务、需要错误恢复。


5. Open Interpreter:LLM 操作本地

GitHub:github.com/OpenInterpreter/open-interpreter 50K+ stars

5.1 哲学

“ChatGPT Code Interpreter,但跑在你本地”

不限于 GUI——让 LLM 写并执行代码、调用 shell、操作文件、控制电脑

5.2 能力

能力说明
Code executionPython / JS / shell 直接跑
File operations读 / 写 / 移动文件
API callsrequests / 安装库
Computer Usescreenshot + click(2024 加入)
Voice mode语音输入
Local LLMOllama / Llama / 任意本地模型

5.3 与”纯 Computer Use”的差异

Open Interpreter 是**“代码 + 屏幕操作”混合**:

能用代码解决的 → 写代码
能用 API 解决的 → 调 API
都不行 → 才看屏幕点击

通常比纯 Computer Use 快 10x、便宜 10x——因为大量任务用脚本就够。

5.4 适合谁

  • 个人助理 / 私人 OS-level agent
  • 数据处理任务(代码 + GUI 混合)
  • 想替代 Code Interpreter 但要私有

6. Cradle:游戏 + 通用桌面

GitHub:github.com/BAAI-Agents/Cradle

6.1 哲学

“通用 Computer Control Foundation Agent”——不只 GUI,游戏也能玩

Cradle 把**“操作电脑”和”玩游戏”看作同一类问题**——都需要视觉感知 + 长 horizon planning + 实时控制。

6.2 能力

  • 操作 Windows / macOS / Linux
  • 玩 RDR2 / 《荒野大镖客》等 3A 游戏
  • 通用桌面应用
  • Skill library(技能复用,类似 Voyager for Minecraft)

6.3 学术派代表

Cradle 是学术研究为主——不是为生产设计,但思想前沿:

  • 长 horizon memory + skill library
  • 多模态视觉理解(游戏画面 vs GUI)
  • Self-improvement(玩多了游戏越玩越好)

6.4 适合谁

  • 研究、跑论文
  • 探索”游戏 + GUI agent 通用模型”
  • 不适合企业生产

7. OS-Copilot / OSAgent:学术派

7.1 OS-Copilot

arXiv 2402.07456

Shanghai AI Lab 出品,第一个跨 macOS / Linux 的通用桌面 agent:

  • Self-improvement(技能库不断扩充)
  • 与终端、GUI、API 同时交互
  • benchmark 上比 GPT-4 + 工程显著强

7.2 OSAgent / OS-Atlas

各种学术派变种,主要贡献:桌面 agent 的训练数据和基准

7.3 工业落地

学术派论文多但生产级少——目前生产桌面 agent 主要是 Anthropic CU + UI-TARS-desktop 两强。


8. 选型决策

你的桌面 use 需求?

├─ 商业 API,要 SOTA → **Anthropic Computer Use**(API)

├─ 录制 + 回放(企业重复流程) → **OpenAdapt**

├─ 极简 demo / 教学 → **Self-Operating Computer**

├─ 个人助理 + 代码 + GUI 混合 → **Open Interpreter**

├─ 游戏 + 桌面研究 → **Cradle**

├─ 跨 OS + 私有 + 中文 → **UI-TARS-desktop**(第 4 章已讲)

└─ 学术研究 → OS-Copilot / OSAgent

8.1 主流组合

生产桌面 Agent:
  Anthropic Computer Use API(主 LLM)
   + 自跑 Linux VM / Docker(隔离)
   + LangGraph 编排(模块六)
   + LangSmith trace(模块六第 8 章)
   + Phoenix eval(模块八第 6 章)

或:

私有 + 离线:
  UI-TARS-desktop 自跑 7B 模型
   + LangGraph
   + 自建 benchmark

✅ 自我检验清单

  • Browser vs Desktop 差异:能列出至少 4 个核心差异
  • OSWorld vs WebVoyager 差距:能解释为什么桌面比 web 落后 20%
  • OpenAdapt 范式:能讲清 record / process / replay 三步
  • Self-Operating Computer:能写 3 行最简代码
  • Open Interpreter 优势:能解释”代码 + GUI 混合”为什么比纯 GUI 快/便宜
  • Cradle 学术性:能解释为什么”GUI + 游戏统一看待”
  • OS-Copilot 贡献:能说出”self-improvement 技能库”
  • 决策树:面对 5 个具体桌面场景,能给出推荐
  • 工业级组合:能写出”Anthropic CU + LangGraph + Phoenix”的栈

📚 参考资料

框架代码

论文

综合解读

  • What are Computer-Use Agents (MarkTechPost):博文
  • Open Interpreter overview:各类 YouTube / 知乎教程