第5章：OS / Desktop Use 框架 —— 超越 Browser

Browser 之外是更大的世界——办公软件、设计工具、IDE、终端、游戏。Browser 已被 browser-use 等卷到 89% 性能,但桌面 (OSWorld) 现在 SOTA 才 66%——这是 2026 最大的开发空间。本章把桌面层主流开源框架横评:OpenAdapt(record + replay)、Self-Operating Computer(极简)、Cradle(游戏 + 通用)、Open Interpreter(终端 + 计算机)等,讲清各自的定位和适用边界。

📑 目录

1. 桌面 Use 与 Browser Use 的差异
2. Anthropic Computer Use SDK(回顾)
3. OpenAdapt:Record + Replay
4. Self-Operating Computer:极简框架
5. Open Interpreter:LLM 操作本地
6. Cradle:游戏 + 通用桌面
7. OS-Copilot / OSAgent:学术派
8. 选型决策
自我检验清单
参考资料

1. 桌面 Use 与 Browser Use 的差异

维度	Browser	Desktop
标准化	DOM、URL、HTML 标准	各 OS 各应用各异
元素提取	DOM tree(精确)	accessibility tree(不全 / 不一致)
输入设备	鼠标 + 键盘	+ 多键组合 / 触控板 / 多屏
反馈	URL 变化	任意视觉变化
Sandbox	容易(headless Chrome)	难(VM / 远程桌面)
复杂度	中	高

🌟 关键现状:桌面 Computer Use 比 Browser 落后约 20%(OSWorld 66% vs WebVoyager 89%),这给开源生态留了大量空间。

2. Anthropic Computer Use SDK(回顾)

第 3 章详讲过——Anthropic API 是最强的桌面 use 商业方案:

跨 OS(Linux / macOS / Windows)
screenshot + click/type 工具
Claude Opus 4.5 OSWorld 66.3%(SOTA)

但需要写自己的 loop。下面看开源方案。

3. OpenAdapt:Record + Replay

GitHub:github.com/OpenAdaptAI/OpenAdapt

3.1 哲学

“录制人类操作 → AI 学会回放 → 泛化到新场景”

不需要”agent 从零探索”——让用户先录一遍,AI 从录像里学。

3.2 工作流

1. Record:用户做一遍任务,OpenAdapt 录屏 + 鼠标键盘事件
2. Process:AI 分析录像 → 提取 high-level 步骤
3. Replay:在新输入下回放,AI 处理细节差异

3.3 优势

✅ 冷启动好:不用 prompt 工程,录一遍就行 ✅ 企业友好:业务流程录一次,跑无数遍 ✅ 可解释:每步都对应录制片段

3.4 局限

录制阶段仍需要用户参与
高度变化的场景(如 dynamic UI)回放时会崩
主要是 RPA-on-AI,不是真正的”探索式 agent”

3.5 适合场景

重复性企业工作流(月报、对账、批量录入)
老软件 / 内部 ERP 自动化

4. Self-Operating Computer:极简框架

GitHub:github.com/OthersideAI/self-operating-computer

4.1 哲学

“几行代码让 GPT-4V 操作你的电脑”

4.2 最简代码

from self_operating_computer import SelfOperatingComputer

agent = SelfOperatingComputer(
    model="gpt-4o",
    objective="打开 Chrome 浏览器,搜索'今日油价'",
)
agent.run()

3 行代码,跑起来就看着鼠标自己动。

4.3 适合谁

个人玩家
教学 / demo
简单 PoC

不适合:生产、复杂任务、需要错误恢复。

5. Open Interpreter:LLM 操作本地

GitHub:github.com/OpenInterpreter/open-interpreter 50K+ stars

5.1 哲学

“ChatGPT Code Interpreter,但跑在你本地”

不限于 GUI——让 LLM 写并执行代码、调用 shell、操作文件、控制电脑。

5.2 能力

能力	说明
Code execution	Python / JS / shell 直接跑
File operations	读 / 写 / 移动文件
API calls	requests / 安装库
Computer Use	screenshot + click(2024 加入)
Voice mode	语音输入
Local LLM	Ollama / Llama / 任意本地模型

5.3 与”纯 Computer Use”的差异

Open Interpreter 是**“代码 + 屏幕操作”混合**:

能用代码解决的 → 写代码
能用 API 解决的 → 调 API
都不行 → 才看屏幕点击

通常比纯 Computer Use 快 10x、便宜 10x——因为大量任务用脚本就够。

5.4 适合谁

个人助理 / 私人 OS-level agent
数据处理任务(代码 + GUI 混合)
想替代 Code Interpreter 但要私有

6. Cradle:游戏 + 通用桌面

GitHub:github.com/BAAI-Agents/Cradle

6.1 哲学

“通用 Computer Control Foundation Agent”——不只 GUI,游戏也能玩

Cradle 把**“操作电脑”和”玩游戏”看作同一类问题**——都需要视觉感知 + 长 horizon planning + 实时控制。

6.2 能力

操作 Windows / macOS / Linux
玩 RDR2 / 《荒野大镖客》等 3A 游戏
通用桌面应用
Skill library(技能复用,类似 Voyager for Minecraft)

6.3 学术派代表

Cradle 是学术研究为主——不是为生产设计,但思想前沿:

长 horizon memory + skill library
多模态视觉理解(游戏画面 vs GUI)
Self-improvement(玩多了游戏越玩越好)

6.4 适合谁

研究、跑论文
探索”游戏 + GUI agent 通用模型”
不适合企业生产

7. OS-Copilot / OSAgent:学术派

7.1 OS-Copilot

arXiv 2402.07456

Shanghai AI Lab 出品,第一个跨 macOS / Linux 的通用桌面 agent:

Self-improvement(技能库不断扩充)
与终端、GUI、API 同时交互
benchmark 上比 GPT-4 + 工程显著强

7.2 OSAgent / OS-Atlas

各种学术派变种,主要贡献:桌面 agent 的训练数据和基准。

7.3 工业落地

学术派论文多但生产级少——目前生产桌面 agent 主要是 Anthropic CU + UI-TARS-desktop 两强。

8. 选型决策

你的桌面 use 需求?
│
├─ 商业 API,要 SOTA → **Anthropic Computer Use**(API)
│
├─ 录制 + 回放(企业重复流程) → **OpenAdapt**
│
├─ 极简 demo / 教学 → **Self-Operating Computer**
│
├─ 个人助理 + 代码 + GUI 混合 → **Open Interpreter**
│
├─ 游戏 + 桌面研究 → **Cradle**
│
├─ 跨 OS + 私有 + 中文 → **UI-TARS-desktop**(第 4 章已讲)
│
└─ 学术研究 → OS-Copilot / OSAgent

8.1 主流组合

生产桌面 Agent:
  Anthropic Computer Use API(主 LLM)
   + 自跑 Linux VM / Docker(隔离)
   + LangGraph 编排(模块六)
   + LangSmith trace(模块六第 8 章)
   + Phoenix eval(模块八第 6 章)

或:

私有 + 离线:
  UI-TARS-desktop 自跑 7B 模型
   + LangGraph
   + 自建 benchmark

✅ 自我检验清单

Browser vs Desktop 差异:能列出至少 4 个核心差异
OSWorld vs WebVoyager 差距:能解释为什么桌面比 web 落后 20%
OpenAdapt 范式:能讲清 record / process / replay 三步
Self-Operating Computer:能写 3 行最简代码
Open Interpreter 优势:能解释”代码 + GUI 混合”为什么比纯 GUI 快/便宜
Cradle 学术性:能解释为什么”GUI + 游戏统一看待”
OS-Copilot 贡献:能说出”self-improvement 技能库”
决策树:面对 5 个具体桌面场景,能给出推荐
工业级组合:能写出”Anthropic CU + LangGraph + Phoenix”的栈

📚 参考资料

框架代码

OpenAdapt:github.com/OpenAdaptAI/OpenAdapt
Self-Operating Computer:github.com/OthersideAI/self-operating-computer
Open Interpreter:github.com/OpenInterpreter/open-interpreter
Cradle:github.com/BAAI-Agents/Cradle
UI-TARS-desktop:github.com/bytedance/UI-TARS-desktop

论文

OS-Copilot:arXiv 2402.07456
OS-Atlas:arXiv 2410.23218
OSWorld:arXiv 2404.07972

综合解读

What are Computer-Use Agents (MarkTechPost):博文
Open Interpreter overview:各类 YouTube / 知乎教程