第4章：Browser Use 开源框架 —— browser-use / Stagehand / Skyvern / UI-TARS-desktop

商业 API 强但贵。开源生态是 Computer Use 真正的”民主化”力量——browser-use 91K+ stars、Skyvern 90.8% WebVoyager、UI-TARS-desktop 27K stars,不需要 OpenAI / Anthropic 帐号也能跑出 SOTA 级别的 agent。本章把 5 大开源框架横评:架构、最简代码、能力矩阵、选型决策,让你看到”开源 Computer Use 是怎么和商业 API 卷起来的”。

1. 框架全景速查

框架	出品	哲学	WebVoyager 2026	GitHub Stars
browser-use	browser-use Inc.	Agent-first natural language	89.1%	91K+
Stagehand	Browserbase	Playwright + AI(act/extract/observe)	75%	14K+
Skyvern	Skyvern AI	视觉 vision agent / form 特化	85.8%	11K+
UI-TARS-desktop	ByteDance	全栈(VLM 模型 + 客户端)	80%+	27K+
Browserbase(基础设施)	Browserbase	Cloud Chromium for AI	—	—

🌟 2026 工业事实:browser-use 是 web agent 的事实标准——91K stars、89.1% WebVoyager,无人能挑战。

2. browser-use:工业事实标准

GitHub:github.com/browser-use/browser-use WebVoyager: 89.1%(开源 SOTA)

2.1 哲学

“Agent-first”——用自然语言描述目标,框架自动 plan + 执行

不需要写 Playwright 脚本,直接告诉 agent 要做什么:

agent = Agent(task="找到 OpenAI 最新博客文章并总结", llm=llm)
await agent.run()

2.2 架构

┌─────────────────────────────────────────┐
│  User Task("自然语言")                   │
└─────────────────────────────────────────┘
              ↓
┌─────────────────────────────────────────┐
│  Agent Loop                              │
│   ├── Browser State Capture              │
│   │    - screenshot                       │
│   │    - DOM tree                         │
│   │    - interactive_elements list       │
│   ├── LLM Reasoning(Claude/GPT/Gemini)   │
│   └── Action Execution(Playwright)       │
└─────────────────────────────────────────┘
              ↓
┌─────────────────────────────────────────┐
│  Playwright(Chromium control)           │
└─────────────────────────────────────────┘

2.3 最简代码

import asyncio
from browser_use import Agent
from langchain_anthropic import ChatAnthropic

async def main():
    agent = Agent(
        task="去 hacker news 找今天最热的 AI 文章,总结到 100 字以内",
        llm=ChatAnthropic(model="claude-sonnet-4-5"),
    )
    result = await agent.run(max_steps=15)
    print(result.final_result())

asyncio.run(main())

10 行代码完成完整 agent——这就是为什么 91K stars。

2.4 关键能力

能力	说明
多 LLM 支持	Claude / GPT / Gemini / DeepSeek / 本地 Ollama
Async 原生	Python asyncio,高并发友好
错误恢复	LLM 看到错误会自动 retry / try alternative
Memory	自动管理 context window(模块五意义上的 short-term memory)
Cloud version	不想自己跑 Chromium? Browser-use Cloud 托管
Multi-tab	多标签页同时操作
File upload / download	处理文件
Proxy / cookies	反爬 / 登录态

2.5 优劣

✅ 极易上手:5 分钟从 0 到 demo ✅ Open SOTA:WebVoyager 89.1% 顶级 ✅ 生态最大:大量教程、issue、贡献 ✅ Cloud 版本可选:不想运维就用托管

❌ Token 消耗较高(每 step 一张高清图 + DOM) ❌ Form-heavy 场景不如 Skyvern 专门优化 ❌ Desktop / 非 web 场景不支持

2.6 适合谁

通用 web 自动化首选
快速原型 / Demo
没特殊 vertical 需求

3. Stagehand(Browserbase):三 API 范式

GitHub:github.com/browserbase/stagehand Browserbase 出品,Playwright 增强版

3.1 哲学

“AI primitives on top of Playwright”——给 Playwright 加 3 个 AI API

不像 browser-use 那样”全权委托”,Stagehand 让你保留 Playwright 的精确控制 + 在关键点加 AI 智能:

const page = await stagehand.page;

// AI 智能 act
await page.act("Click the login button");

// AI 提取结构化数据
const data = await page.extract({
  schema: z.object({ price: z.number(), title: z.string() }),
});

// AI 观察可点元素
const buttons = await page.observe("Show me all buttons on this page");

3.2 三 AI API

API	用途
act()	执行自然语言动作(“点登录按钮”)
extract()	提取结构化数据(用 Zod schema)
observe()	列出某类元素(返回选择器列表)

3.3 优势

✅ 强类型(TypeScript first) ✅ 混合 deterministic + AI:精确控制 + 智能 ✅ Browserbase 集成:云 Chromium 无需自跑 ✅ 生产级(Browserbase 是商业公司)

3.4 局限

TS 优先,Python 支持后期才加
需要写更多代码(不像 browser-use 那么”零摩擦”)
主要面向 Browserbase 客户

3.5 适合谁

TypeScript / Next.js 团队
已用 Playwright 想加 AI 智能
需要高可控性的生产场景

4. Skyvern:form-heavy 特化

GitHub:github.com/Skyvern-AI/skyvern WebVoyager: 85.8%

4.1 哲学

“Vision agent for legacy / form-heavy web”——专门搞政府、保险、医疗等老掉牙网站

Skyvern 不追求通用,它瞄准:RPA 卷不动的 form-heavy 场景——保险申报、政府表单、医疗报销、企业 procurement portal。

4.2 关键差异

特性	说明
2FA / OTP 内置	自动处理短信验证码、TOTP
CAPTCHA 集成	接入 2Captcha / Anti-Captcha 等
Proxy 网络	Bright Data / Oxylabs 等代理集成
结构化提取	表格、PDF 提取
文件下载到云	S3 / GCS 自动归档
Live viewport streaming	客户实时看 agent 工作
Parallel execution	同一任务并发跑多场景

4.3 Vision-only 路线

Skyvern 是少数纯 vision 路线(不依赖 DOM)——这让它能搞定:

Canvas-rendered web app
iframe 内复杂结构
旧式 ASP.NET / Java applet 页面

4.4 最简代码

from skyvern import Skyvern

skyvern = Skyvern(api_key="...")

task = await skyvern.run_task(
    prompt="去 dmv.ca.gov 帮我申请驾照换发,使用以下信息: ...",
    url="https://dmv.ca.gov",
    enable_2fa=True,
    extract_schema={"confirmation_number": "string"},
)

print(task.result)

4.5 适合谁

保险 / 医疗 / 政府 / B2B 自动化公司
需要 2FA / CAPTCHA 内置支持
客户业务在”难搞的网站”上

5. UI-TARS-desktop:全栈开源

GitHub:github.com/bytedance/UI-TARS-desktop 27K+ stars,ByteDance 全栈方案

5.1 哲学

“全栈开源的 AI Agent Stack——模型 + 客户端 + agent infrastructure 一体”

UI-TARS-desktop 不是单纯的 framework,是一整个产品:

自带 UI-TARS VLM 模型(自己跑或 API)
客户端(Electron 跨 OS 桌面应用)
Agent infra(planning、memory、execution)
MCP 兼容(连各种工具)

5.2 vs 其他框架

维度	UI-TARS-desktop	browser-use	Anthropic CU
包含 VLM	✅ 自带 7B	❌(用 OpenAI/Claude)	✅(Claude)
客户端 GUI	✅ Electron app	❌	❌
跨 OS desktop	✅	❌ web only	✅
私有部署	✅ 完全离线	partial	❌
Vertical(web) 性能	中	强	强

5.3 适合谁

私有部署 + 离线运行(数据敏感)
想跑开源模型(避开商业 API)
中文场景 / ByteDance 生态

6. Browserbase:云 Chromium 基础设施

官网:browserbase.com

6.1 定位

不是 agent 框架——是给 agent 提供云 Chromium 实例的基础设施。

6.2 解决的问题

本地跑 Chromium:
  - 启动慢(几秒)
  - 容易被反爬识别(no fingerprint)
  - 多并发难(本地 IP 限流)
  - 部署复杂

Browserbase 云:
  - 即开即用
  - Stealth fingerprint(规避反爬)
  - 全球地理分布(IP 多样)
  - SOC 2 / GDPR 合规

6.3 集成

# browser-use 配合 Browserbase
from browser_use import Agent
from browserbase import Browserbase

bb = Browserbase(api_key="...")
session = await bb.create_session()

agent = Agent(
    task="...",
    cdp_url=session.cdp_url,  # 用 Browserbase 的 Chromium
)

🍎 2026 共识:生产 web agent 几乎都用云 Chromium(Browserbase / Steel.dev / Anchor Browser),自跑容易翻车。

7. 能力矩阵 + 选型决策

7.1 能力矩阵

维度	browser-use	Stagehand	Skyvern	UI-TARS-desktop	Browserbase
Web automation	★★★★★	★★★★	★★★★	★★★	(基础设施)
Desktop	✗	✗	✗	★★★★★	✗
Form-heavy / 反爬	★★★	★★★	★★★★★	★★★	★★★★★(基础)
TypeScript	★★	★★★★★	★★	★★	★★★★
Python	★★★★★	★★★	★★★★★	★★★★	★★★★
私有部署	★★★★	★★★★	★★★★	★★★★★	✗(SaaS)
学习曲线	极低	中	中	中	(低)
生态	★★★★★	★★★	★★★	★★★★	—

7.2 选型决策树

你的场景?
│
├─ 通用 web 自动化、快速原型
│   └─ browser-use(开箱即用,SOTA)
│
├─ TS / Next.js 团队 / 高可控
│   └─ Stagehand
│
├─ Form-heavy(政府 / 保险 / 医疗)/ 反爬严
│   └─ Skyvern(2FA / CAPTCHA / proxy 内置)
│
├─ Desktop 跨 OS / 离线 / 中文
│   └─ UI-TARS-desktop
│
├─ 不想运维 Chromium
│   └─ Browserbase(基础设施,搭配上面任一框架)
│
└─ 极简 demo
    └─ Anthropic Computer Use API(第 3 章)

7.3 工业级组合

生产 Web Agent stack:
  
  browser-use(主框架,自然语言 task)
    + Browserbase(云 Chromium,反爬)
    + Claude Sonnet 4.5(LLM)
    + LangSmith(observability,模块六第 8 章)
    + Phoenix(eval,模块八第 6 章)
    + 自建 benchmark(模块八第 7 章)

✅ 自我检验清单

5 框架一句话:能用一句话总结每个框架的设计哲学
browser-use 上手代码:能默写 10 行 Agent(”…“).run() 代码
Stagehand 三 API:能解释 act / extract / observe 各自用途
Skyvern 特化:能列出 5 个 form-heavy 特化能力
UI-TARS-desktop 优势:能解释为什么”全栈开源”对私有部署关键
Browserbase 价值:能解释云 Chromium 解决了什么问题
能力矩阵:能从内存中默写 5 框架 × 5 能力的表
选型决策:面对 5 个具体业务,能在 2 分钟给出推荐
工业级组合:能写一份 5+ 组件的生产 stack

📚 参考资料

官方代码

browser-use:github.com/browser-use/browser-use
Stagehand:github.com/browserbase/stagehand
Skyvern:github.com/Skyvern-AI/skyvern
UI-TARS-desktop:github.com/bytedance/UI-TARS-desktop
Browserbase:browserbase.com

横向对比

Browser-use vs Stagehand (Skyvern Blog):博文
Stagehand vs Browser Use vs Playwright (NxCode):博文
11 Best AI Browser Agents (Firecrawl):博文
Layout-Resistant Automation Tools (Skyvern Blog):博文

案例

Browser-use 91k stars 解读:博文
Stagehand alternatives:博文

搜索