第3章:三大商业 API 对比 —— Anthropic / OpenAI / Google
Anthropic Computer Use(portable)、OpenAI Codex Background CU(macOS)、Google Gemini Computer Use(browser)三家定位、API 用法、Pricing 与选型
三家 AI 巨头各押一个方向打 Computer Use:Anthropic 押 portable / OS 通用、OpenAI 押 macOS desktop、Google 押 browser-anchored。本章把三家 API 的设计哲学、关键能力、最简代码、Pricing 与选型决策讲清,让你看到每家产品立刻知道”它最适合哪类任务”。
📑 目录
- 1. 三家定位速查
- 2. Anthropic Computer Use
- 3. OpenAI Codex Background Computer Use
- 4. Google Gemini Computer Use
- 5. 性能对比
- 6. Pricing 对比
- 7. 选型决策树
- 自我检验清单
- 参考资料
1. 三家定位速查
| 维度 | Anthropic | OpenAI | |
|---|---|---|---|
| 产品名 | Claude Computer Use | Codex Background CU | Gemini Computer Use |
| 首发 | 2024-10 | 2025-01 → 2026-04 升级 | 2025-Q3 |
| 主战场 | Portable / Any OS | macOS desktop | Browser |
| 形态 | Tool API | Codex SDK + 多 session | API + Browser-anchored |
| 视觉模型 | Claude 4.x VLM | GPT-5.4 / GPT-5 视觉 | Gemini 2.5 多模态 |
| WebVoyager(2026 SOTA) | ~85% | ~83% | 88.9% |
| OSWorld | 66.3%(Opus 4.5) | ~50% | ~42% |
| Best for | OS-level 通用 | 开发 / Codex 集成 | 网页自动化 |
🌟 三家覆盖了 Computer Use 的 3 大场景——选哪家本质就是”你的主战场是什么”。
2. Anthropic Computer Use
2024-10 首发,首个商业 Computer Use API
2.1 定位
“portable tool”——任意 VM、Docker、远程 Mac 都能跑
Anthropic 给开发者一个屏幕 + 鼠标 + 键盘的工具集,跑在哪由你定。
2.2 关键能力
| 能力 | 说明 |
|---|---|
computer tool | screenshot / click / type / mouse_move 等 |
| OS 无关 | Linux / macOS / Windows / 容器都能跑 |
| Long-horizon | 几十步任务的稳定性强 |
| 与 Claude 一体 | API 直接 call computer tool |
2.3 最简代码
import anthropic
import base64
from PIL import ImageGrab
client = anthropic.Anthropic()
def take_screenshot():
"""抓屏并 base64 编码。"""
img = ImageGrab.grab()
img.save("/tmp/screen.png")
with open("/tmp/screen.png", "rb") as f:
return base64.b64encode(f.read()).decode()
def execute_action(action):
"""根据 LLM 输出执行 click/type 等。"""
if action["action"] == "click":
# pyautogui 等做实际操作
import pyautogui
pyautogui.click(action["coordinate"][0], action["coordinate"][1])
elif action["action"] == "type":
pyautogui.typewrite(action["text"])
# ... screenshot / scroll / etc
def computer_use_loop(task: str, max_steps: int = 20):
messages = [{"role": "user", "content": task}]
for step in range(max_steps):
screenshot = take_screenshot()
# 把 screenshot 加到最新 message
messages.append({
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot}},
],
})
response = client.beta.messages.create(
model="claude-opus-4-5",
max_tokens=4096,
tools=[{"type": "computer_20250124", "name": "computer", "display_width_px": 1920, "display_height_px": 1080}],
messages=messages,
)
# 解析 LLM 输出的 tool use
for block in response.content:
if block.type == "tool_use":
execute_action(block.input)
messages.append({"role": "assistant", "content": [block]})
elif block.type == "text" and "TASK_COMPLETE" in block.text:
return block.text
if response.stop_reason == "end_turn":
break
return "Max steps reached"
# 用法
computer_use_loop("帮我打开计算器算 23 × 47")
2.4 优势
✅ OS-agnostic:任何环境都能跑 ✅ 长 horizon 任务最稳(Anthropic 的优势) ✅ 价格可控(API 直接 call) ✅ 私有部署友好(自己跑 VM,数据不外流)
2.5 局限
❌ Developer-facing:不是 turn-key 产品,要自己写 loop ❌ screenshot 抓屏需要本地 agent:无法直接操作云端浏览器(除非自己部署) ❌ VLM 调用贵:每 turn 一张高清图
3. OpenAI Codex Background Computer Use
2025-01 Operator 测试版 → 2026-04 升级 Codex Background CU
3.1 定位
“macOS desktop-native”——多个 Codex agent 在 background 同时跑
不再是”你看着 agent 一步步操作”的 demo,而是多个 Codex 实例并行在虚拟 macOS 桌面里跑——每个干自己的活,你只看最终结果。
3.2 关键能力
| 能力 | 说明 |
|---|---|
| Background sessions | 多 agent 并发 |
| macOS 原生 | 跑在 Apple Silicon VM,操作 Chrome / Xcode / Terminal 等 |
| Codex SDK 深度集成 | 写代码 + 跑代码 + 看结果一气呵成 |
| Sandbox | 完全隔离的 macOS VM |
3.3 用法
OpenAI 提供了 SDK(目前 macOS-first):
from openai import OpenAI
client = OpenAI()
response = client.codex.create_session(
model="gpt-5.4",
task="在 GitHub 上克隆 facebook/react,跑 yarn test,把失败的 test 修了",
environment="macos_vm",
background=True, # 后台跑,不需要你看
)
# 后台跑几分钟,完成后获取结果
result = client.codex.get_session(response.id)
print(result.summary)
print(result.video_recording_url) # 录像可看
3.4 优势
✅ 多 agent 并发:5 个任务同时跑,生产力翻倍 ✅ 深度 Codex 集成:开发场景最强 ✅ 录像 + 状态可观察:debug 友好 ✅ 长任务背景跑:你做别的,几分钟回来看结果
3.5 局限
❌ macOS only(2026 的 roadmap 说会扩到 Linux/Windows) ❌ 绑定 OpenAI 栈 ❌ Sandbox VM 启动慢(秒级) ❌ Pricing 较贵(VM 时间 + GPT-5 token)
4. Google Gemini Computer Use
从 Project Mariner(2024)演化,2025-Q3 正式 API
4.1 定位
“browser-anchored”——专为浏览器优化,DOM-aware
Google 选了一条相反的路:先把 browser 这个最常见场景做到极致,而不是追求通用。
4.2 关键能力
| 能力 | 说明 |
|---|---|
| DOM-aware | 直接看 DOM tree + screenshot |
| Web action 优化 | navigate / type / click / scroll 等 web-native action |
| Gemini 2.5 多模态 | 视觉 + DOM 双输入 |
| Workspace 集成 | Gmail / Sheets / Docs 等 Google 产品深度集成 |
4.3 最简代码
from google import genai
client = genai.Client(api_key="...")
session = client.computer_use.create_session(
initial_url="https://flights.google.com",
task="搜索从北京到东京下周的机票,选最便宜的",
)
while not session.done:
state = session.observe()
# state 含 screenshot + DOM
action = client.models.generate_content(
model="gemini-2.5-pro-cu",
input=state,
)
session.execute(action)
print(session.result)
4.4 性能(2026)
| Benchmark | Gemini 2.5 CU |
|---|---|
| WebVoyager | 88.9% |
| Online-Mind2Web | 69.0% |
| AndroidWorld | 69.7% |
| OSWorld | ~42% |
🌟 Web 任务 SOTA——Gemini 2.5 在浏览器赛道领先 Anthropic 和 OpenAI。
4.5 优势
✅ Web 任务最强(WebVoyager 88.9%) ✅ DOM-aware:精确度高于纯视觉 ✅ 价格便宜(Gemini 系普遍便宜) ✅ Google 生态深度集成
4.6 局限
❌ 桌面 / 移动弱(OSWorld 才 42%) ❌ 依赖 Google Cloud / Workspace 基础设施 ❌ DOM-aware 在 SPA / canvas 应用失效
5. 性能对比
5.1 多 benchmark 综合(2026-04)
| 维度 | Anthropic Claude Opus 4.5 | OpenAI GPT-5.4 | Gemini 2.5 CU |
|---|---|---|---|
| OSWorld(desktop) | 66.3% | 50% | 42% |
| WebVoyager(web) | 85% | 83% | 88.9% |
| Online-Mind2Web | 60% | 58% | 69.0% |
| AndroidWorld | 50% | 45% | 69.7% |
| 长 horizon 任务 | 强 | 中 | 中 |
| 代码场景 | 中 | 强(Codex 加持) | 中 |
5.2 主战场对照
| 主战场 | 推荐 |
|---|---|
| Desktop / OS-level | Anthropic |
| 代码 / 开发 | OpenAI Codex |
| 浏览器 / Web | Gemini |
| 移动 | Gemini(AndroidWorld 第一) |
6. Pricing 对比
6.1 大致定价(2026-04)
| 平台 | 模式 | 估算 $/任务(中等复杂度,~10 turns) |
|---|---|---|
| Anthropic Computer Use | API token | ~$0.50-2.00 |
| OpenAI Codex Background CU | API + VM time | ~$1.50-5.00 |
| Gemini Computer Use API | API token(便宜) | ~$0.30-1.20 |
6.2 主要成本来源
每 turn 成本:
Screenshot(图大,~1MB) 占 input token 大头
+ History(累积 trajectory) 越长越贵
+ LLM output(action + reasoning)
─────────────────────────────────
单 turn:几 cent
20 turn 任务:$1-5
🍎 关键控制点:降低截图分辨率 + 去重历史 + 善用 prompt cache 可以省 50%+。
6.3 自托管方案
如果用 UI-TARS-1.5 7B 自跑:
GPU 成本:H100 ~$2/小时,可处理 ~1000 任务/小时 → ~$0.002/任务
自托管比商业 API 便宜 100-1000x——但需要懂部署、懂模型管理。
7. 选型决策树
你的主战场?
│
├─ Web 浏览器为主
│ ├─ Google 生态用户 / 价格敏感 → Gemini Computer Use
│ ├─ 已有 OpenAI 栈 → Operator(Codex 中带)
│ └─ 自托管开源 → browser-use(下章)
│
├─ Desktop 软件操作
│ ├─ macOS-only 团队 → OpenAI Codex Background
│ ├─ 跨 OS / Linux / 自跑 VM → **Anthropic Computer Use**
│ └─ 自托管开源 → UI-TARS-desktop
│
├─ Mobile 自动化
│ └─ Gemini(AndroidWorld 第一)+ 自建框架
│
├─ 代码 / 开发场景
│ └─ **OpenAI Codex Background**(深度集成)
│
├─ 私有部署 / 数据不出网
│ └─ Anthropic + 自跑 VM,或 UI-TARS 自托管
│
└─ 极致成本敏感
└─ UI-TARS 自托管(自跑 7B)
7.1 多家混用
很多企业是多家混用:
- Web research agent:Gemini(便宜+强)
- Desktop 自动化:Anthropic
- Code agent:OpenAI Codex
- 核心私有任务:UI-TARS 自托管
通过统一 abstraction layer(LangGraph 等)调度。
✅ 自我检验清单
- 三家定位:能用一句话概括 Anthropic / OpenAI / Google 的 Computer Use 主战场
- Anthropic 优势:能解释 portable / OS-agnostic 的工程含义
- OpenAI Codex Background:能讲清”多 session 并发”对开发者的价值
- Gemini DOM-aware:能解释为什么 web 比纯视觉强
- 三家性能:能默写 OSWorld / WebVoyager / AndroidWorld 的 SOTA 归属
- API 最简代码:能用 Anthropic API 写 5 行 demo loop
- Pricing 估算:能算 20-turn 任务在三家的成本范围
- 自托管 vs API:能解释为什么自托管 100-1000x 便宜
- 决策树:面对 6 个具体场景,能给出选型推荐
- 多家混用:能给一个企业设计 3 家混用方案
📚 参考资料
官方
- Anthropic Computer Use:anthropic.com/news/3-5-models-and-computer-use
- Anthropic Computer Use Docs:docs.anthropic.com/en/docs/agents-and-tools/computer-use
- OpenAI Computer-Using Agent:openai.com/index/computer-using-agent
- Google Gemini Computer Use API:Google AI Studio docs
对比博客
- Computer Use Agents 2026 (Digital Applied):博文
- Best Computer Use Agent Comparison (Coasty):博文
- The 2025-2026 AI Computer-Use Benchmarks Guide:O-Mega
Pricing
- LLM API Pricing 2026:CloudIDR