第3章：三大商业 API 对比 —— Anthropic / OpenAI / Google

三家 AI 巨头各押一个方向打 Computer Use:Anthropic 押 portable / OS 通用、OpenAI 押 macOS desktop、Google 押 browser-anchored。本章把三家 API 的设计哲学、关键能力、最简代码、Pricing 与选型决策讲清,让你看到每家产品立刻知道”它最适合哪类任务”。

📑 目录

1. 三家定位速查
2. Anthropic Computer Use
3. OpenAI Codex Background Computer Use
4. Google Gemini Computer Use
5. 性能对比
6. Pricing 对比
7. 选型决策树
自我检验清单
参考资料

1. 三家定位速查

维度	Anthropic	OpenAI	Google
产品名	Claude Computer Use	Codex Background CU	Gemini Computer Use
首发	2024-10	2025-01 → 2026-04 升级	2025-Q3
主战场	Portable / Any OS	macOS desktop	Browser
形态	Tool API	Codex SDK + 多 session	API + Browser-anchored
视觉模型	Claude 4.x VLM	GPT-5.4 / GPT-5 视觉	Gemini 2.5 多模态
WebVoyager(2026 SOTA)	~85%	~83%	88.9%
OSWorld	66.3%(Opus 4.5)	~50%	~42%
Best for	OS-level 通用	开发 / Codex 集成	网页自动化

🌟 三家覆盖了 Computer Use 的 3 大场景——选哪家本质就是”你的主战场是什么”。

2. Anthropic Computer Use

2024-10 首发,首个商业 Computer Use API

2.1 定位

“portable tool”——任意 VM、Docker、远程 Mac 都能跑

Anthropic 给开发者一个屏幕 + 鼠标 + 键盘的工具集,跑在哪由你定。

2.2 关键能力

能力	说明
`computer` tool	screenshot / click / type / mouse_move 等
OS 无关	Linux / macOS / Windows / 容器都能跑
Long-horizon	几十步任务的稳定性强
与 Claude 一体	API 直接 call computer tool

2.3 最简代码

import anthropic
import base64
from PIL import ImageGrab

client = anthropic.Anthropic()

def take_screenshot():
    """抓屏并 base64 编码。"""
    img = ImageGrab.grab()
    img.save("/tmp/screen.png")
    with open("/tmp/screen.png", "rb") as f:
        return base64.b64encode(f.read()).decode()

def execute_action(action):
    """根据 LLM 输出执行 click/type 等。"""
    if action["action"] == "click":
        # pyautogui 等做实际操作
        import pyautogui
        pyautogui.click(action["coordinate"][0], action["coordinate"][1])
    elif action["action"] == "type":
        pyautogui.typewrite(action["text"])
    # ... screenshot / scroll / etc

def computer_use_loop(task: str, max_steps: int = 20):
    messages = [{"role": "user", "content": task}]
    
    for step in range(max_steps):
        screenshot = take_screenshot()
        
        # 把 screenshot 加到最新 message
        messages.append({
            "role": "user",
            "content": [
                {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot}},
            ],
        })
        
        response = client.beta.messages.create(
            model="claude-opus-4-5",
            max_tokens=4096,
            tools=[{"type": "computer_20250124", "name": "computer", "display_width_px": 1920, "display_height_px": 1080}],
            messages=messages,
        )
        
        # 解析 LLM 输出的 tool use
        for block in response.content:
            if block.type == "tool_use":
                execute_action(block.input)
                messages.append({"role": "assistant", "content": [block]})
            elif block.type == "text" and "TASK_COMPLETE" in block.text:
                return block.text
        
        if response.stop_reason == "end_turn":
            break
    return "Max steps reached"

# 用法
computer_use_loop("帮我打开计算器算 23 × 47")

2.4 优势

✅ OS-agnostic:任何环境都能跑 ✅ 长 horizon 任务最稳(Anthropic 的优势) ✅ 价格可控(API 直接 call) ✅ 私有部署友好(自己跑 VM,数据不外流)

2.5 局限

❌ Developer-facing:不是 turn-key 产品,要自己写 loop ❌ screenshot 抓屏需要本地 agent:无法直接操作云端浏览器(除非自己部署) ❌ VLM 调用贵:每 turn 一张高清图

3. OpenAI Codex Background Computer Use

2025-01 Operator 测试版 → 2026-04 升级 Codex Background CU

3.1 定位

“macOS desktop-native”——多个 Codex agent 在 background 同时跑

不再是”你看着 agent 一步步操作”的 demo,而是多个 Codex 实例并行在虚拟 macOS 桌面里跑——每个干自己的活,你只看最终结果。

3.2 关键能力

能力	说明
Background sessions	多 agent 并发
macOS 原生	跑在 Apple Silicon VM,操作 Chrome / Xcode / Terminal 等
Codex SDK 深度集成	写代码 + 跑代码 + 看结果一气呵成
Sandbox	完全隔离的 macOS VM

3.3 用法

OpenAI 提供了 SDK(目前 macOS-first):

from openai import OpenAI

client = OpenAI()

response = client.codex.create_session(
    model="gpt-5.4",
    task="在 GitHub 上克隆 facebook/react,跑 yarn test,把失败的 test 修了",
    environment="macos_vm",
    background=True,  # 后台跑,不需要你看
)

# 后台跑几分钟,完成后获取结果
result = client.codex.get_session(response.id)
print(result.summary)
print(result.video_recording_url)  # 录像可看

3.4 优势

✅ 多 agent 并发:5 个任务同时跑,生产力翻倍 ✅ 深度 Codex 集成:开发场景最强 ✅ 录像 + 状态可观察:debug 友好 ✅ 长任务背景跑:你做别的,几分钟回来看结果

3.5 局限

❌ macOS only(2026 的 roadmap 说会扩到 Linux/Windows) ❌ 绑定 OpenAI 栈 ❌ Sandbox VM 启动慢(秒级) ❌ Pricing 较贵(VM 时间 + GPT-5 token)

4. Google Gemini Computer Use

从 Project Mariner(2024)演化,2025-Q3 正式 API

4.1 定位

“browser-anchored”——专为浏览器优化,DOM-aware

Google 选了一条相反的路:先把 browser 这个最常见场景做到极致,而不是追求通用。

4.2 关键能力

能力	说明
DOM-aware	直接看 DOM tree + screenshot
Web action 优化	navigate / type / click / scroll 等 web-native action
Gemini 2.5 多模态	视觉 + DOM 双输入
Workspace 集成	Gmail / Sheets / Docs 等 Google 产品深度集成

4.3 最简代码

from google import genai

client = genai.Client(api_key="...")

session = client.computer_use.create_session(
    initial_url="https://flights.google.com",
    task="搜索从北京到东京下周的机票,选最便宜的",
)

while not session.done:
    state = session.observe()
    # state 含 screenshot + DOM
    action = client.models.generate_content(
        model="gemini-2.5-pro-cu",
        input=state,
    )
    session.execute(action)

print(session.result)

4.4 性能(2026)

Benchmark	Gemini 2.5 CU
WebVoyager	88.9%
Online-Mind2Web	69.0%
AndroidWorld	69.7%
OSWorld	~42%

🌟 Web 任务 SOTA——Gemini 2.5 在浏览器赛道领先 Anthropic 和 OpenAI。

维度	Anthropic Claude Opus 4.5	OpenAI GPT-5.4	Gemini 2.5 CU
OSWorld(desktop)	66.3%	50%	42%
WebVoyager(web)	85%	83%	88.9%
Online-Mind2Web	60%	58%	69.0%
AndroidWorld	50%	45%	69.7%
长 horizon 任务	强	中	中
代码场景	中	强(Codex 加持)	中

5.2 主战场对照

主战场	推荐
Desktop / OS-level	Anthropic
代码 / 开发	OpenAI Codex
浏览器 / Web	Gemini
移动	Gemini(AndroidWorld 第一)

6. Pricing 对比

6.1 大致定价(2026-04)

平台	模式	估算 $/任务(中等复杂度,~10 turns)
Anthropic Computer Use	API token	~$0.50-2.00
OpenAI Codex Background CU	API + VM time	~$1.50-5.00
Gemini Computer Use API	API token(便宜)	~$0.30-1.20

6.2 主要成本来源

每 turn 成本:
  Screenshot(图大,~1MB)         占 input token 大头
  + History(累积 trajectory)     越长越贵
  + LLM output(action + reasoning)
─────────────────────────────────
单 turn:几 cent
20 turn 任务:$1-5

🍎 关键控制点:降低截图分辨率 + 去重历史 + 善用 prompt cache 可以省 50%+。

6.3 自托管方案

如果用 UI-TARS-1.5 7B 自跑:

GPU 成本:H100 ~$2/小时,可处理 ~1000 任务/小时 → ~$0.002/任务

自托管比商业 API 便宜 100-1000x——但需要懂部署、懂模型管理。

7. 选型决策树

你的主战场?
│
├─ Web 浏览器为主
│   ├─ Google 生态用户 / 价格敏感 → Gemini Computer Use
│   ├─ 已有 OpenAI 栈 → Operator(Codex 中带)
│   └─ 自托管开源 → browser-use(下章)
│
├─ Desktop 软件操作
│   ├─ macOS-only 团队 → OpenAI Codex Background
│   ├─ 跨 OS / Linux / 自跑 VM → **Anthropic Computer Use**
│   └─ 自托管开源 → UI-TARS-desktop
│
├─ Mobile 自动化
│   └─ Gemini(AndroidWorld 第一)+ 自建框架
│
├─ 代码 / 开发场景
│   └─ **OpenAI Codex Background**(深度集成)
│
├─ 私有部署 / 数据不出网
│   └─ Anthropic + 自跑 VM,或 UI-TARS 自托管
│
└─ 极致成本敏感
    └─ UI-TARS 自托管(自跑 7B)

7.1 多家混用

很多企业是多家混用:

Web research agent:Gemini(便宜+强)
Desktop 自动化:Anthropic
Code agent:OpenAI Codex
核心私有任务:UI-TARS 自托管

通过统一 abstraction layer(LangGraph 等)调度。

Anthropic Computer Use:anthropic.com/news/3-5-models-and-computer-use
Anthropic Computer Use Docs:docs.anthropic.com/en/docs/agents-and-tools/computer-use
OpenAI Computer-Using Agent:openai.com/index/computer-using-agent
Google Gemini Computer Use API:Google AI Studio docs

对比博客

Computer Use Agents 2026 (Digital Applied):博文
Best Computer Use Agent Comparison (Coasty):博文
The 2025-2026 AI Computer-Use Benchmarks Guide:O-Mega

Pricing

LLM API Pricing 2026:CloudIDR