跳到主要内容
Computer Use

第4章:Browser Use 开源框架 —— browser-use / Stagehand / Skyvern / UI-TARS-desktop

5 大主流开源 browser/desktop 自动化框架横评:browser-use(91K stars)、Stagehand、Skyvern、UI-TARS-desktop、Browserbase

browser-use Stagehand Skyvern UI-TARS Browserbase Playwright

商业 API 强但贵。开源生态是 Computer Use 真正的”民主化”力量——browser-use 91K+ stars、Skyvern 90.8% WebVoyager、UI-TARS-desktop 27K stars,不需要 OpenAI / Anthropic 帐号也能跑出 SOTA 级别的 agent。本章把 5 大开源框架横评:架构、最简代码、能力矩阵、选型决策,让你看到”开源 Computer Use 是怎么和商业 API 卷起来的”。

📑 目录


1. 框架全景速查

框架出品哲学WebVoyager 2026GitHub Stars
browser-usebrowser-use Inc.Agent-first natural language89.1%91K+
StagehandBrowserbasePlaywright + AI(act/extract/observe)75%14K+
SkyvernSkyvern AI视觉 vision agent / form 特化85.8%11K+
UI-TARS-desktopByteDance全栈(VLM 模型 + 客户端)80%+27K+
Browserbase(基础设施)BrowserbaseCloud Chromium for AI

🌟 2026 工业事实:browser-use 是 web agent 的事实标准——91K stars、89.1% WebVoyager,无人能挑战。


2. browser-use:工业事实标准

GitHub:github.com/browser-use/browser-use WebVoyager: 89.1%(开源 SOTA)

2.1 哲学

“Agent-first”——用自然语言描述目标,框架自动 plan + 执行

不需要写 Playwright 脚本,直接告诉 agent 要做什么:

agent = Agent(task="找到 OpenAI 最新博客文章并总结", llm=llm)
await agent.run()

2.2 架构

┌─────────────────────────────────────────┐
│  User Task("自然语言")                   │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│  Agent Loop                              │
│   ├── Browser State Capture              │
│   │    - screenshot                       │
│   │    - DOM tree                         │
│   │    - interactive_elements list       │
│   ├── LLM Reasoning(Claude/GPT/Gemini)   │
│   └── Action Execution(Playwright)       │
└─────────────────────────────────────────┘

┌─────────────────────────────────────────┐
│  Playwright(Chromium control)           │
└─────────────────────────────────────────┘

2.3 最简代码

import asyncio
from browser_use import Agent
from langchain_anthropic import ChatAnthropic

async def main():
    agent = Agent(
        task="去 hacker news 找今天最热的 AI 文章,总结到 100 字以内",
        llm=ChatAnthropic(model="claude-sonnet-4-5"),
    )
    result = await agent.run(max_steps=15)
    print(result.final_result())

asyncio.run(main())

10 行代码完成完整 agent——这就是为什么 91K stars

2.4 关键能力

能力说明
多 LLM 支持Claude / GPT / Gemini / DeepSeek / 本地 Ollama
Async 原生Python asyncio,高并发友好
错误恢复LLM 看到错误会自动 retry / try alternative
Memory自动管理 context window(模块五意义上的 short-term memory)
Cloud version不想自己跑 Chromium? Browser-use Cloud 托管
Multi-tab多标签页同时操作
File upload / download处理文件
Proxy / cookies反爬 / 登录态

2.5 优劣

极易上手:5 分钟从 0 到 demo ✅ Open SOTA:WebVoyager 89.1% 顶级 ✅ 生态最大:大量教程、issue、贡献 ✅ Cloud 版本可选:不想运维就用托管

❌ Token 消耗较高(每 step 一张高清图 + DOM) ❌ Form-heavy 场景不如 Skyvern 专门优化 ❌ Desktop / 非 web 场景不支持

2.6 适合谁

  • 通用 web 自动化首选
  • 快速原型 / Demo
  • 没特殊 vertical 需求

3. Stagehand(Browserbase):三 API 范式

GitHub:github.com/browserbase/stagehand Browserbase 出品,Playwright 增强版

3.1 哲学

“AI primitives on top of Playwright”——给 Playwright 加 3 个 AI API

不像 browser-use 那样”全权委托”,Stagehand 让你保留 Playwright 的精确控制 + 在关键点加 AI 智能:

const page = await stagehand.page;

// AI 智能 act
await page.act("Click the login button");

// AI 提取结构化数据
const data = await page.extract({
  schema: z.object({ price: z.number(), title: z.string() }),
});

// AI 观察可点元素
const buttons = await page.observe("Show me all buttons on this page");

3.2 三 AI API

API用途
act()执行自然语言动作(“点登录按钮”)
extract()提取结构化数据(用 Zod schema)
observe()列出某类元素(返回选择器列表)

3.3 优势

强类型(TypeScript first) ✅ 混合 deterministic + AI:精确控制 + 智能 ✅ Browserbase 集成:云 Chromium 无需自跑 ✅ 生产级(Browserbase 是商业公司)

3.4 局限

  • TS 优先,Python 支持后期才加
  • 需要写更多代码(不像 browser-use 那么”零摩擦”)
  • 主要面向 Browserbase 客户

3.5 适合谁

  • TypeScript / Next.js 团队
  • 已用 Playwright 想加 AI 智能
  • 需要高可控性的生产场景

4. Skyvern:form-heavy 特化

GitHub:github.com/Skyvern-AI/skyvern WebVoyager: 85.8%

4.1 哲学

“Vision agent for legacy / form-heavy web”——专门搞政府、保险、医疗等老掉牙网站

Skyvern 不追求通用,它瞄准:RPA 卷不动的 form-heavy 场景——保险申报、政府表单、医疗报销、企业 procurement portal。

4.2 关键差异

特性说明
2FA / OTP 内置自动处理短信验证码、TOTP
CAPTCHA 集成接入 2Captcha / Anti-Captcha 等
Proxy 网络Bright Data / Oxylabs 等代理集成
结构化提取表格、PDF 提取
文件下载到云S3 / GCS 自动归档
Live viewport streaming客户实时看 agent 工作
Parallel execution同一任务并发跑多场景

4.3 Vision-only 路线

Skyvern 是少数纯 vision 路线(不依赖 DOM)——这让它能搞定:

  • Canvas-rendered web app
  • iframe 内复杂结构
  • 旧式 ASP.NET / Java applet 页面

4.4 最简代码

from skyvern import Skyvern

skyvern = Skyvern(api_key="...")

task = await skyvern.run_task(
    prompt="去 dmv.ca.gov 帮我申请驾照换发,使用以下信息: ...",
    url="https://dmv.ca.gov",
    enable_2fa=True,
    extract_schema={"confirmation_number": "string"},
)

print(task.result)

4.5 适合谁

  • 保险 / 医疗 / 政府 / B2B 自动化公司
  • 需要 2FA / CAPTCHA 内置支持
  • 客户业务在”难搞的网站”上

5. UI-TARS-desktop:全栈开源

GitHub:github.com/bytedance/UI-TARS-desktop 27K+ stars,ByteDance 全栈方案

5.1 哲学

“全栈开源的 AI Agent Stack——模型 + 客户端 + agent infrastructure 一体”

UI-TARS-desktop 不是单纯的 framework,是一整个产品:

  • 自带 UI-TARS VLM 模型(自己跑或 API)
  • 客户端(Electron 跨 OS 桌面应用)
  • Agent infra(planning、memory、execution)
  • MCP 兼容(连各种工具)

5.2 vs 其他框架

维度UI-TARS-desktopbrowser-useAnthropic CU
包含 VLM✅ 自带 7B❌(用 OpenAI/Claude)✅(Claude)
客户端 GUI✅ Electron app
跨 OS desktop❌ web only
私有部署✅ 完全离线partial
Vertical(web) 性能

5.3 适合谁

  • 私有部署 + 离线运行(数据敏感)
  • 想跑开源模型(避开商业 API)
  • 中文场景 / ByteDance 生态

6. Browserbase:云 Chromium 基础设施

官网:browserbase.com

6.1 定位

不是 agent 框架——是给 agent 提供云 Chromium 实例的基础设施

6.2 解决的问题

本地跑 Chromium:
  - 启动慢(几秒)
  - 容易被反爬识别(no fingerprint)
  - 多并发难(本地 IP 限流)
  - 部署复杂

Browserbase 云:
  - 即开即用
  - Stealth fingerprint(规避反爬)
  - 全球地理分布(IP 多样)
  - SOC 2 / GDPR 合规

6.3 集成

# browser-use 配合 Browserbase
from browser_use import Agent
from browserbase import Browserbase

bb = Browserbase(api_key="...")
session = await bb.create_session()

agent = Agent(
    task="...",
    cdp_url=session.cdp_url,  # 用 Browserbase 的 Chromium
)

🍎 2026 共识:生产 web agent 几乎都用云 Chromium(Browserbase / Steel.dev / Anchor Browser),自跑容易翻车。


7. 能力矩阵 + 选型决策

7.1 能力矩阵

维度browser-useStagehandSkyvernUI-TARS-desktopBrowserbase
Web automation★★★★★★★★★★★★★★★★(基础设施)
Desktop★★★★★
Form-heavy / 反爬★★★★★★★★★★★★★★★★★★★(基础)
TypeScript★★★★★★★★★★★★★★★
Python★★★★★★★★★★★★★★★★★★★★★
私有部署★★★★★★★★★★★★★★★★★✗(SaaS)
学习曲线极低(低)
生态★★★★★★★★★★★★★★★

7.2 选型决策树

你的场景?

├─ 通用 web 自动化、快速原型
│   └─ browser-use(开箱即用,SOTA)

├─ TS / Next.js 团队 / 高可控
│   └─ Stagehand

├─ Form-heavy(政府 / 保险 / 医疗)/ 反爬严
│   └─ Skyvern(2FA / CAPTCHA / proxy 内置)

├─ Desktop 跨 OS / 离线 / 中文
│   └─ UI-TARS-desktop

├─ 不想运维 Chromium
│   └─ Browserbase(基础设施,搭配上面任一框架)

└─ 极简 demo
    └─ Anthropic Computer Use API(第 3 章)

7.3 工业级组合

生产 Web Agent stack:
  
  browser-use(主框架,自然语言 task)
    + Browserbase(云 Chromium,反爬)
    + Claude Sonnet 4.5(LLM)
    + LangSmith(observability,模块六第 8 章)
    + Phoenix(eval,模块八第 6 章)
    + 自建 benchmark(模块八第 7 章)

✅ 自我检验清单

  • 5 框架一句话:能用一句话总结每个框架的设计哲学
  • browser-use 上手代码:能默写 10 行 Agent(”…“).run() 代码
  • Stagehand 三 API:能解释 act / extract / observe 各自用途
  • Skyvern 特化:能列出 5 个 form-heavy 特化能力
  • UI-TARS-desktop 优势:能解释为什么”全栈开源”对私有部署关键
  • Browserbase 价值:能解释云 Chromium 解决了什么问题
  • 能力矩阵:能从内存中默写 5 框架 × 5 能力的表
  • 选型决策:面对 5 个具体业务,能在 2 分钟给出推荐
  • 工业级组合:能写一份 5+ 组件的生产 stack

📚 参考资料

官方代码

横向对比

  • Browser-use vs Stagehand (Skyvern Blog):博文
  • Stagehand vs Browser Use vs Playwright (NxCode):博文
  • 11 Best AI Browser Agents (Firecrawl):博文
  • Layout-Resistant Automation Tools (Skyvern Blog):博文

案例

  • Browser-use 91k stars 解读:博文
  • Stagehand alternatives:博文