跳到主要内容
Computer Use

第3章:三大商业 API 对比 —— Anthropic / OpenAI / Google

Anthropic Computer Use(portable)、OpenAI Codex Background CU(macOS)、Google Gemini Computer Use(browser)三家定位、API 用法、Pricing 与选型

Anthropic OpenAI Google Gemini Computer Use API Operator

三家 AI 巨头各押一个方向打 Computer Use:Anthropic 押 portable / OS 通用、OpenAI 押 macOS desktop、Google 押 browser-anchored。本章把三家 API 的设计哲学、关键能力、最简代码、Pricing 与选型决策讲清,让你看到每家产品立刻知道”它最适合哪类任务”。

📑 目录


1. 三家定位速查

维度AnthropicOpenAIGoogle
产品名Claude Computer UseCodex Background CUGemini Computer Use
首发2024-102025-01 → 2026-04 升级2025-Q3
主战场Portable / Any OSmacOS desktopBrowser
形态Tool APICodex SDK + 多 sessionAPI + Browser-anchored
视觉模型Claude 4.x VLMGPT-5.4 / GPT-5 视觉Gemini 2.5 多模态
WebVoyager(2026 SOTA)~85%~83%88.9%
OSWorld66.3%(Opus 4.5)~50%~42%
Best forOS-level 通用开发 / Codex 集成网页自动化

🌟 三家覆盖了 Computer Use 的 3 大场景——选哪家本质就是”你的主战场是什么”。


2. Anthropic Computer Use

2024-10 首发,首个商业 Computer Use API

2.1 定位

“portable tool”——任意 VM、Docker、远程 Mac 都能跑

Anthropic 给开发者一个屏幕 + 鼠标 + 键盘的工具集,跑在哪由你定。

2.2 关键能力

能力说明
computer toolscreenshot / click / type / mouse_move 等
OS 无关Linux / macOS / Windows / 容器都能跑
Long-horizon几十步任务的稳定性强
与 Claude 一体API 直接 call computer tool

2.3 最简代码

import anthropic
import base64
from PIL import ImageGrab

client = anthropic.Anthropic()

def take_screenshot():
    """抓屏并 base64 编码。"""
    img = ImageGrab.grab()
    img.save("/tmp/screen.png")
    with open("/tmp/screen.png", "rb") as f:
        return base64.b64encode(f.read()).decode()

def execute_action(action):
    """根据 LLM 输出执行 click/type 等。"""
    if action["action"] == "click":
        # pyautogui 等做实际操作
        import pyautogui
        pyautogui.click(action["coordinate"][0], action["coordinate"][1])
    elif action["action"] == "type":
        pyautogui.typewrite(action["text"])
    # ... screenshot / scroll / etc

def computer_use_loop(task: str, max_steps: int = 20):
    messages = [{"role": "user", "content": task}]
    
    for step in range(max_steps):
        screenshot = take_screenshot()
        
        # 把 screenshot 加到最新 message
        messages.append({
            "role": "user",
            "content": [
                {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot}},
            ],
        })
        
        response = client.beta.messages.create(
            model="claude-opus-4-5",
            max_tokens=4096,
            tools=[{"type": "computer_20250124", "name": "computer", "display_width_px": 1920, "display_height_px": 1080}],
            messages=messages,
        )
        
        # 解析 LLM 输出的 tool use
        for block in response.content:
            if block.type == "tool_use":
                execute_action(block.input)
                messages.append({"role": "assistant", "content": [block]})
            elif block.type == "text" and "TASK_COMPLETE" in block.text:
                return block.text
        
        if response.stop_reason == "end_turn":
            break
    return "Max steps reached"

# 用法
computer_use_loop("帮我打开计算器算 23 × 47")

2.4 优势

OS-agnostic:任何环境都能跑 ✅ 长 horizon 任务最稳(Anthropic 的优势) ✅ 价格可控(API 直接 call) ✅ 私有部署友好(自己跑 VM,数据不外流)

2.5 局限

Developer-facing:不是 turn-key 产品,要自己写 loop ❌ screenshot 抓屏需要本地 agent:无法直接操作云端浏览器(除非自己部署) ❌ VLM 调用贵:每 turn 一张高清图


3. OpenAI Codex Background Computer Use

2025-01 Operator 测试版 → 2026-04 升级 Codex Background CU

3.1 定位

“macOS desktop-native”——多个 Codex agent 在 background 同时跑

不再是”你看着 agent 一步步操作”的 demo,而是多个 Codex 实例并行在虚拟 macOS 桌面里跑——每个干自己的活,你只看最终结果。

3.2 关键能力

能力说明
Background sessions多 agent 并发
macOS 原生跑在 Apple Silicon VM,操作 Chrome / Xcode / Terminal 等
Codex SDK 深度集成写代码 + 跑代码 + 看结果一气呵成
Sandbox完全隔离的 macOS VM

3.3 用法

OpenAI 提供了 SDK(目前 macOS-first):

from openai import OpenAI

client = OpenAI()

response = client.codex.create_session(
    model="gpt-5.4",
    task="在 GitHub 上克隆 facebook/react,跑 yarn test,把失败的 test 修了",
    environment="macos_vm",
    background=True,  # 后台跑,不需要你看
)

# 后台跑几分钟,完成后获取结果
result = client.codex.get_session(response.id)
print(result.summary)
print(result.video_recording_url)  # 录像可看

3.4 优势

多 agent 并发:5 个任务同时跑,生产力翻倍 ✅ 深度 Codex 集成:开发场景最强 ✅ 录像 + 状态可观察:debug 友好 ✅ 长任务背景跑:你做别的,几分钟回来看结果

3.5 局限

macOS only(2026 的 roadmap 说会扩到 Linux/Windows) ❌ 绑定 OpenAI 栈Sandbox VM 启动慢(秒级) ❌ Pricing 较贵(VM 时间 + GPT-5 token)


4. Google Gemini Computer Use

从 Project Mariner(2024)演化,2025-Q3 正式 API

4.1 定位

“browser-anchored”——专为浏览器优化,DOM-aware

Google 选了一条相反的路:先把 browser 这个最常见场景做到极致,而不是追求通用。

4.2 关键能力

能力说明
DOM-aware直接看 DOM tree + screenshot
Web action 优化navigate / type / click / scroll 等 web-native action
Gemini 2.5 多模态视觉 + DOM 双输入
Workspace 集成Gmail / Sheets / Docs 等 Google 产品深度集成

4.3 最简代码

from google import genai

client = genai.Client(api_key="...")

session = client.computer_use.create_session(
    initial_url="https://flights.google.com",
    task="搜索从北京到东京下周的机票,选最便宜的",
)

while not session.done:
    state = session.observe()
    # state 含 screenshot + DOM
    action = client.models.generate_content(
        model="gemini-2.5-pro-cu",
        input=state,
    )
    session.execute(action)

print(session.result)

4.4 性能(2026)

BenchmarkGemini 2.5 CU
WebVoyager88.9%
Online-Mind2Web69.0%
AndroidWorld69.7%
OSWorld~42%

🌟 Web 任务 SOTA——Gemini 2.5 在浏览器赛道领先 Anthropic 和 OpenAI。

4.5 优势

Web 任务最强(WebVoyager 88.9%) ✅ DOM-aware:精确度高于纯视觉 ✅ 价格便宜(Gemini 系普遍便宜) ✅ Google 生态深度集成

4.6 局限

桌面 / 移动弱(OSWorld 才 42%) ❌ 依赖 Google Cloud / Workspace 基础设施DOM-aware 在 SPA / canvas 应用失效


5. 性能对比

5.1 多 benchmark 综合(2026-04)

维度Anthropic Claude Opus 4.5OpenAI GPT-5.4Gemini 2.5 CU
OSWorld(desktop)66.3%50%42%
WebVoyager(web)85%83%88.9%
Online-Mind2Web60%58%69.0%
AndroidWorld50%45%69.7%
长 horizon 任务
代码场景(Codex 加持)

5.2 主战场对照

主战场推荐
Desktop / OS-levelAnthropic
代码 / 开发OpenAI Codex
浏览器 / WebGemini
移动Gemini(AndroidWorld 第一)

6. Pricing 对比

6.1 大致定价(2026-04)

平台模式估算 $/任务(中等复杂度,~10 turns)
Anthropic Computer UseAPI token~$0.50-2.00
OpenAI Codex Background CUAPI + VM time~$1.50-5.00
Gemini Computer Use APIAPI token(便宜)~$0.30-1.20

6.2 主要成本来源

每 turn 成本:
  Screenshot(图大,~1MB)         占 input token 大头
  + History(累积 trajectory)     越长越贵
  + LLM output(action + reasoning)
─────────────────────────────────
单 turn:几 cent
20 turn 任务:$1-5

🍎 关键控制点:降低截图分辨率 + 去重历史 + 善用 prompt cache 可以省 50%+

6.3 自托管方案

如果用 UI-TARS-1.5 7B 自跑:

GPU 成本:H100 ~$2/小时,可处理 ~1000 任务/小时 → ~$0.002/任务

自托管比商业 API 便宜 100-1000x——但需要懂部署、懂模型管理。


7. 选型决策树

你的主战场?

├─ Web 浏览器为主
│   ├─ Google 生态用户 / 价格敏感 → Gemini Computer Use
│   ├─ 已有 OpenAI 栈 → Operator(Codex 中带)
│   └─ 自托管开源 → browser-use(下章)

├─ Desktop 软件操作
│   ├─ macOS-only 团队 → OpenAI Codex Background
│   ├─ 跨 OS / Linux / 自跑 VM → **Anthropic Computer Use**
│   └─ 自托管开源 → UI-TARS-desktop

├─ Mobile 自动化
│   └─ Gemini(AndroidWorld 第一)+ 自建框架

├─ 代码 / 开发场景
│   └─ **OpenAI Codex Background**(深度集成)

├─ 私有部署 / 数据不出网
│   └─ Anthropic + 自跑 VM,或 UI-TARS 自托管

└─ 极致成本敏感
    └─ UI-TARS 自托管(自跑 7B)

7.1 多家混用

很多企业是多家混用:

  • Web research agent:Gemini(便宜+强)
  • Desktop 自动化:Anthropic
  • Code agent:OpenAI Codex
  • 核心私有任务:UI-TARS 自托管

通过统一 abstraction layer(LangGraph 等)调度。


✅ 自我检验清单

  • 三家定位:能用一句话概括 Anthropic / OpenAI / Google 的 Computer Use 主战场
  • Anthropic 优势:能解释 portable / OS-agnostic 的工程含义
  • OpenAI Codex Background:能讲清”多 session 并发”对开发者的价值
  • Gemini DOM-aware:能解释为什么 web 比纯视觉强
  • 三家性能:能默写 OSWorld / WebVoyager / AndroidWorld 的 SOTA 归属
  • API 最简代码:能用 Anthropic API 写 5 行 demo loop
  • Pricing 估算:能算 20-turn 任务在三家的成本范围
  • 自托管 vs API:能解释为什么自托管 100-1000x 便宜
  • 决策树:面对 6 个具体场景,能给出选型推荐
  • 多家混用:能给一个企业设计 3 家混用方案

📚 参考资料

官方

对比博客

  • Computer Use Agents 2026 (Digital Applied):博文
  • Best Computer Use Agent Comparison (Coasty):博文
  • The 2025-2026 AI Computer-Use Benchmarks Guide:O-Mega

Pricing