第5章:OS / Desktop Use 框架 —— 超越 Browser
桌面层 Computer Use 开源框架:OpenAdapt、Self-Operating Computer、Cradle、Open Interpreter、OS-Copilot 等
Browser 之外是更大的世界——办公软件、设计工具、IDE、终端、游戏。Browser 已被 browser-use 等卷到 89% 性能,但桌面 (OSWorld) 现在 SOTA 才 66%——这是 2026 最大的开发空间。本章把桌面层主流开源框架横评:OpenAdapt(record + replay)、Self-Operating Computer(极简)、Cradle(游戏 + 通用)、Open Interpreter(终端 + 计算机)等,讲清各自的定位和适用边界。
📑 目录
- 1. 桌面 Use 与 Browser Use 的差异
- 2. Anthropic Computer Use SDK(回顾)
- 3. OpenAdapt:Record + Replay
- 4. Self-Operating Computer:极简框架
- 5. Open Interpreter:LLM 操作本地
- 6. Cradle:游戏 + 通用桌面
- 7. OS-Copilot / OSAgent:学术派
- 8. 选型决策
- 自我检验清单
- 参考资料
1. 桌面 Use 与 Browser Use 的差异
| 维度 | Browser | Desktop |
|---|---|---|
| 标准化 | DOM、URL、HTML 标准 | 各 OS 各应用各异 |
| 元素提取 | DOM tree(精确) | accessibility tree(不全 / 不一致) |
| 输入设备 | 鼠标 + 键盘 | + 多键组合 / 触控板 / 多屏 |
| 反馈 | URL 变化 | 任意视觉变化 |
| Sandbox | 容易(headless Chrome) | 难(VM / 远程桌面) |
| 复杂度 | 中 | 高 |
🌟 关键现状:桌面 Computer Use 比 Browser 落后约 20%(OSWorld 66% vs WebVoyager 89%),这给开源生态留了大量空间。
2. Anthropic Computer Use SDK(回顾)
第 3 章详讲过——Anthropic API 是最强的桌面 use 商业方案:
- 跨 OS(Linux / macOS / Windows)
- screenshot + click/type 工具
- Claude Opus 4.5 OSWorld 66.3%(SOTA)
但需要写自己的 loop。下面看开源方案。
3. OpenAdapt:Record + Replay
3.1 哲学
“录制人类操作 → AI 学会回放 → 泛化到新场景”
不需要”agent 从零探索”——让用户先录一遍,AI 从录像里学。
3.2 工作流
1. Record:用户做一遍任务,OpenAdapt 录屏 + 鼠标键盘事件
2. Process:AI 分析录像 → 提取 high-level 步骤
3. Replay:在新输入下回放,AI 处理细节差异
3.3 优势
✅ 冷启动好:不用 prompt 工程,录一遍就行 ✅ 企业友好:业务流程录一次,跑无数遍 ✅ 可解释:每步都对应录制片段
3.4 局限
- 录制阶段仍需要用户参与
- 高度变化的场景(如 dynamic UI)回放时会崩
- 主要是 RPA-on-AI,不是真正的”探索式 agent”
3.5 适合场景
- 重复性企业工作流(月报、对账、批量录入)
- 老软件 / 内部 ERP 自动化
4. Self-Operating Computer:极简框架
4.1 哲学
“几行代码让 GPT-4V 操作你的电脑”
4.2 最简代码
from self_operating_computer import SelfOperatingComputer
agent = SelfOperatingComputer(
model="gpt-4o",
objective="打开 Chrome 浏览器,搜索'今日油价'",
)
agent.run()
3 行代码,跑起来就看着鼠标自己动。
4.3 适合谁
- 个人玩家
- 教学 / demo
- 简单 PoC
不适合:生产、复杂任务、需要错误恢复。
5. Open Interpreter:LLM 操作本地
GitHub:github.com/OpenInterpreter/open-interpreter 50K+ stars
5.1 哲学
“ChatGPT Code Interpreter,但跑在你本地”
不限于 GUI——让 LLM 写并执行代码、调用 shell、操作文件、控制电脑。
5.2 能力
| 能力 | 说明 |
|---|---|
| Code execution | Python / JS / shell 直接跑 |
| File operations | 读 / 写 / 移动文件 |
| API calls | requests / 安装库 |
| Computer Use | screenshot + click(2024 加入) |
| Voice mode | 语音输入 |
| Local LLM | Ollama / Llama / 任意本地模型 |
5.3 与”纯 Computer Use”的差异
Open Interpreter 是**“代码 + 屏幕操作”混合**:
能用代码解决的 → 写代码
能用 API 解决的 → 调 API
都不行 → 才看屏幕点击
通常比纯 Computer Use 快 10x、便宜 10x——因为大量任务用脚本就够。
5.4 适合谁
- 个人助理 / 私人 OS-level agent
- 数据处理任务(代码 + GUI 混合)
- 想替代 Code Interpreter 但要私有
6. Cradle:游戏 + 通用桌面
6.1 哲学
“通用 Computer Control Foundation Agent”——不只 GUI,游戏也能玩
Cradle 把**“操作电脑”和”玩游戏”看作同一类问题**——都需要视觉感知 + 长 horizon planning + 实时控制。
6.2 能力
- 操作 Windows / macOS / Linux
- 玩 RDR2 / 《荒野大镖客》等 3A 游戏
- 通用桌面应用
- Skill library(技能复用,类似 Voyager for Minecraft)
6.3 学术派代表
Cradle 是学术研究为主——不是为生产设计,但思想前沿:
- 长 horizon memory + skill library
- 多模态视觉理解(游戏画面 vs GUI)
- Self-improvement(玩多了游戏越玩越好)
6.4 适合谁
- 研究、跑论文
- 探索”游戏 + GUI agent 通用模型”
- 不适合企业生产
7. OS-Copilot / OSAgent:学术派
7.1 OS-Copilot
arXiv 2402.07456
Shanghai AI Lab 出品,第一个跨 macOS / Linux 的通用桌面 agent:
- Self-improvement(技能库不断扩充)
- 与终端、GUI、API 同时交互
- benchmark 上比 GPT-4 + 工程显著强
7.2 OSAgent / OS-Atlas
各种学术派变种,主要贡献:桌面 agent 的训练数据和基准。
7.3 工业落地
学术派论文多但生产级少——目前生产桌面 agent 主要是 Anthropic CU + UI-TARS-desktop 两强。
8. 选型决策
你的桌面 use 需求?
│
├─ 商业 API,要 SOTA → **Anthropic Computer Use**(API)
│
├─ 录制 + 回放(企业重复流程) → **OpenAdapt**
│
├─ 极简 demo / 教学 → **Self-Operating Computer**
│
├─ 个人助理 + 代码 + GUI 混合 → **Open Interpreter**
│
├─ 游戏 + 桌面研究 → **Cradle**
│
├─ 跨 OS + 私有 + 中文 → **UI-TARS-desktop**(第 4 章已讲)
│
└─ 学术研究 → OS-Copilot / OSAgent
8.1 主流组合
生产桌面 Agent:
Anthropic Computer Use API(主 LLM)
+ 自跑 Linux VM / Docker(隔离)
+ LangGraph 编排(模块六)
+ LangSmith trace(模块六第 8 章)
+ Phoenix eval(模块八第 6 章)
或:
私有 + 离线:
UI-TARS-desktop 自跑 7B 模型
+ LangGraph
+ 自建 benchmark
✅ 自我检验清单
- Browser vs Desktop 差异:能列出至少 4 个核心差异
- OSWorld vs WebVoyager 差距:能解释为什么桌面比 web 落后 20%
- OpenAdapt 范式:能讲清 record / process / replay 三步
- Self-Operating Computer:能写 3 行最简代码
- Open Interpreter 优势:能解释”代码 + GUI 混合”为什么比纯 GUI 快/便宜
- Cradle 学术性:能解释为什么”GUI + 游戏统一看待”
- OS-Copilot 贡献:能说出”self-improvement 技能库”
- 决策树:面对 5 个具体桌面场景,能给出推荐
- 工业级组合:能写出”Anthropic CU + LangGraph + Phoenix”的栈
📚 参考资料
框架代码
- OpenAdapt:github.com/OpenAdaptAI/OpenAdapt
- Self-Operating Computer:github.com/OthersideAI/self-operating-computer
- Open Interpreter:github.com/OpenInterpreter/open-interpreter
- Cradle:github.com/BAAI-Agents/Cradle
- UI-TARS-desktop:github.com/bytedance/UI-TARS-desktop
论文
- OS-Copilot:arXiv 2402.07456
- OS-Atlas:arXiv 2410.23218
- OSWorld:arXiv 2404.07972
综合解读
- What are Computer-Use Agents (MarkTechPost):博文
- Open Interpreter overview:各类 YouTube / 知乎教程