第4章:Browser Use 开源框架 —— browser-use / Stagehand / Skyvern / UI-TARS-desktop
5 大主流开源 browser/desktop 自动化框架横评:browser-use(91K stars)、Stagehand、Skyvern、UI-TARS-desktop、Browserbase
商业 API 强但贵。开源生态是 Computer Use 真正的”民主化”力量——browser-use 91K+ stars、Skyvern 90.8% WebVoyager、UI-TARS-desktop 27K stars,不需要 OpenAI / Anthropic 帐号也能跑出 SOTA 级别的 agent。本章把 5 大开源框架横评:架构、最简代码、能力矩阵、选型决策,让你看到”开源 Computer Use 是怎么和商业 API 卷起来的”。
📑 目录
- 1. 框架全景速查
- 2. browser-use:工业事实标准
- 3. Stagehand(Browserbase):三 API 范式
- 4. Skyvern:form-heavy 特化
- 5. UI-TARS-desktop:全栈开源
- 6. Browserbase:云 Chromium 基础设施
- 7. 能力矩阵 + 选型决策
- 自我检验清单
- 参考资料
1. 框架全景速查
| 框架 | 出品 | 哲学 | WebVoyager 2026 | GitHub Stars |
|---|---|---|---|---|
| browser-use | browser-use Inc. | Agent-first natural language | 89.1% | 91K+ |
| Stagehand | Browserbase | Playwright + AI(act/extract/observe) | 75% | 14K+ |
| Skyvern | Skyvern AI | 视觉 vision agent / form 特化 | 85.8% | 11K+ |
| UI-TARS-desktop | ByteDance | 全栈(VLM 模型 + 客户端) | 80%+ | 27K+ |
| Browserbase(基础设施) | Browserbase | Cloud Chromium for AI | — | — |
🌟 2026 工业事实:browser-use 是 web agent 的事实标准——91K stars、89.1% WebVoyager,无人能挑战。
2. browser-use:工业事实标准
GitHub:github.com/browser-use/browser-use WebVoyager: 89.1%(开源 SOTA)
2.1 哲学
“Agent-first”——用自然语言描述目标,框架自动 plan + 执行
不需要写 Playwright 脚本,直接告诉 agent 要做什么:
agent = Agent(task="找到 OpenAI 最新博客文章并总结", llm=llm)
await agent.run()
2.2 架构
┌─────────────────────────────────────────┐
│ User Task("自然语言") │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Agent Loop │
│ ├── Browser State Capture │
│ │ - screenshot │
│ │ - DOM tree │
│ │ - interactive_elements list │
│ ├── LLM Reasoning(Claude/GPT/Gemini) │
│ └── Action Execution(Playwright) │
└─────────────────────────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Playwright(Chromium control) │
└─────────────────────────────────────────┘
2.3 最简代码
import asyncio
from browser_use import Agent
from langchain_anthropic import ChatAnthropic
async def main():
agent = Agent(
task="去 hacker news 找今天最热的 AI 文章,总结到 100 字以内",
llm=ChatAnthropic(model="claude-sonnet-4-5"),
)
result = await agent.run(max_steps=15)
print(result.final_result())
asyncio.run(main())
10 行代码完成完整 agent——这就是为什么 91K stars。
2.4 关键能力
| 能力 | 说明 |
|---|---|
| 多 LLM 支持 | Claude / GPT / Gemini / DeepSeek / 本地 Ollama |
| Async 原生 | Python asyncio,高并发友好 |
| 错误恢复 | LLM 看到错误会自动 retry / try alternative |
| Memory | 自动管理 context window(模块五意义上的 short-term memory) |
| Cloud version | 不想自己跑 Chromium? Browser-use Cloud 托管 |
| Multi-tab | 多标签页同时操作 |
| File upload / download | 处理文件 |
| Proxy / cookies | 反爬 / 登录态 |
2.5 优劣
✅ 极易上手:5 分钟从 0 到 demo ✅ Open SOTA:WebVoyager 89.1% 顶级 ✅ 生态最大:大量教程、issue、贡献 ✅ Cloud 版本可选:不想运维就用托管
❌ Token 消耗较高(每 step 一张高清图 + DOM) ❌ Form-heavy 场景不如 Skyvern 专门优化 ❌ Desktop / 非 web 场景不支持
2.6 适合谁
- 通用 web 自动化首选
- 快速原型 / Demo
- 没特殊 vertical 需求
3. Stagehand(Browserbase):三 API 范式
GitHub:github.com/browserbase/stagehand Browserbase 出品,Playwright 增强版
3.1 哲学
“AI primitives on top of Playwright”——给 Playwright 加 3 个 AI API
不像 browser-use 那样”全权委托”,Stagehand 让你保留 Playwright 的精确控制 + 在关键点加 AI 智能:
const page = await stagehand.page;
// AI 智能 act
await page.act("Click the login button");
// AI 提取结构化数据
const data = await page.extract({
schema: z.object({ price: z.number(), title: z.string() }),
});
// AI 观察可点元素
const buttons = await page.observe("Show me all buttons on this page");
3.2 三 AI API
| API | 用途 |
|---|---|
| act() | 执行自然语言动作(“点登录按钮”) |
| extract() | 提取结构化数据(用 Zod schema) |
| observe() | 列出某类元素(返回选择器列表) |
3.3 优势
✅ 强类型(TypeScript first) ✅ 混合 deterministic + AI:精确控制 + 智能 ✅ Browserbase 集成:云 Chromium 无需自跑 ✅ 生产级(Browserbase 是商业公司)
3.4 局限
- TS 优先,Python 支持后期才加
- 需要写更多代码(不像 browser-use 那么”零摩擦”)
- 主要面向 Browserbase 客户
3.5 适合谁
- TypeScript / Next.js 团队
- 已用 Playwright 想加 AI 智能
- 需要高可控性的生产场景
4. Skyvern:form-heavy 特化
GitHub:github.com/Skyvern-AI/skyvern WebVoyager: 85.8%
4.1 哲学
“Vision agent for legacy / form-heavy web”——专门搞政府、保险、医疗等老掉牙网站
Skyvern 不追求通用,它瞄准:RPA 卷不动的 form-heavy 场景——保险申报、政府表单、医疗报销、企业 procurement portal。
4.2 关键差异
| 特性 | 说明 |
|---|---|
| 2FA / OTP 内置 | 自动处理短信验证码、TOTP |
| CAPTCHA 集成 | 接入 2Captcha / Anti-Captcha 等 |
| Proxy 网络 | Bright Data / Oxylabs 等代理集成 |
| 结构化提取 | 表格、PDF 提取 |
| 文件下载到云 | S3 / GCS 自动归档 |
| Live viewport streaming | 客户实时看 agent 工作 |
| Parallel execution | 同一任务并发跑多场景 |
4.3 Vision-only 路线
Skyvern 是少数纯 vision 路线(不依赖 DOM)——这让它能搞定:
- Canvas-rendered web app
- iframe 内复杂结构
- 旧式 ASP.NET / Java applet 页面
4.4 最简代码
from skyvern import Skyvern
skyvern = Skyvern(api_key="...")
task = await skyvern.run_task(
prompt="去 dmv.ca.gov 帮我申请驾照换发,使用以下信息: ...",
url="https://dmv.ca.gov",
enable_2fa=True,
extract_schema={"confirmation_number": "string"},
)
print(task.result)
4.5 适合谁
- 保险 / 医疗 / 政府 / B2B 自动化公司
- 需要 2FA / CAPTCHA 内置支持
- 客户业务在”难搞的网站”上
5. UI-TARS-desktop:全栈开源
GitHub:github.com/bytedance/UI-TARS-desktop 27K+ stars,ByteDance 全栈方案
5.1 哲学
“全栈开源的 AI Agent Stack——模型 + 客户端 + agent infrastructure 一体”
UI-TARS-desktop 不是单纯的 framework,是一整个产品:
- 自带 UI-TARS VLM 模型(自己跑或 API)
- 客户端(Electron 跨 OS 桌面应用)
- Agent infra(planning、memory、execution)
- MCP 兼容(连各种工具)
5.2 vs 其他框架
| 维度 | UI-TARS-desktop | browser-use | Anthropic CU |
|---|---|---|---|
| 包含 VLM | ✅ 自带 7B | ❌(用 OpenAI/Claude) | ✅(Claude) |
| 客户端 GUI | ✅ Electron app | ❌ | ❌ |
| 跨 OS desktop | ✅ | ❌ web only | ✅ |
| 私有部署 | ✅ 完全离线 | partial | ❌ |
| Vertical(web) 性能 | 中 | 强 | 强 |
5.3 适合谁
- 私有部署 + 离线运行(数据敏感)
- 想跑开源模型(避开商业 API)
- 中文场景 / ByteDance 生态
6. Browserbase:云 Chromium 基础设施
6.1 定位
不是 agent 框架——是给 agent 提供云 Chromium 实例的基础设施。
6.2 解决的问题
本地跑 Chromium:
- 启动慢(几秒)
- 容易被反爬识别(no fingerprint)
- 多并发难(本地 IP 限流)
- 部署复杂
Browserbase 云:
- 即开即用
- Stealth fingerprint(规避反爬)
- 全球地理分布(IP 多样)
- SOC 2 / GDPR 合规
6.3 集成
# browser-use 配合 Browserbase
from browser_use import Agent
from browserbase import Browserbase
bb = Browserbase(api_key="...")
session = await bb.create_session()
agent = Agent(
task="...",
cdp_url=session.cdp_url, # 用 Browserbase 的 Chromium
)
🍎 2026 共识:生产 web agent 几乎都用云 Chromium(Browserbase / Steel.dev / Anchor Browser),自跑容易翻车。
7. 能力矩阵 + 选型决策
7.1 能力矩阵
| 维度 | browser-use | Stagehand | Skyvern | UI-TARS-desktop | Browserbase |
|---|---|---|---|---|---|
| Web automation | ★★★★★ | ★★★★ | ★★★★ | ★★★ | (基础设施) |
| Desktop | ✗ | ✗ | ✗ | ★★★★★ | ✗ |
| Form-heavy / 反爬 | ★★★ | ★★★ | ★★★★★ | ★★★ | ★★★★★(基础) |
| TypeScript | ★★ | ★★★★★ | ★★ | ★★ | ★★★★ |
| Python | ★★★★★ | ★★★ | ★★★★★ | ★★★★ | ★★★★ |
| 私有部署 | ★★★★ | ★★★★ | ★★★★ | ★★★★★ | ✗(SaaS) |
| 学习曲线 | 极低 | 中 | 中 | 中 | (低) |
| 生态 | ★★★★★ | ★★★ | ★★★ | ★★★★ | — |
7.2 选型决策树
你的场景?
│
├─ 通用 web 自动化、快速原型
│ └─ browser-use(开箱即用,SOTA)
│
├─ TS / Next.js 团队 / 高可控
│ └─ Stagehand
│
├─ Form-heavy(政府 / 保险 / 医疗)/ 反爬严
│ └─ Skyvern(2FA / CAPTCHA / proxy 内置)
│
├─ Desktop 跨 OS / 离线 / 中文
│ └─ UI-TARS-desktop
│
├─ 不想运维 Chromium
│ └─ Browserbase(基础设施,搭配上面任一框架)
│
└─ 极简 demo
└─ Anthropic Computer Use API(第 3 章)
7.3 工业级组合
生产 Web Agent stack:
browser-use(主框架,自然语言 task)
+ Browserbase(云 Chromium,反爬)
+ Claude Sonnet 4.5(LLM)
+ LangSmith(observability,模块六第 8 章)
+ Phoenix(eval,模块八第 6 章)
+ 自建 benchmark(模块八第 7 章)
✅ 自我检验清单
- 5 框架一句话:能用一句话总结每个框架的设计哲学
- browser-use 上手代码:能默写 10 行 Agent(”…“).run() 代码
- Stagehand 三 API:能解释 act / extract / observe 各自用途
- Skyvern 特化:能列出 5 个 form-heavy 特化能力
- UI-TARS-desktop 优势:能解释为什么”全栈开源”对私有部署关键
- Browserbase 价值:能解释云 Chromium 解决了什么问题
- 能力矩阵:能从内存中默写 5 框架 × 5 能力的表
- 选型决策:面对 5 个具体业务,能在 2 分钟给出推荐
- 工业级组合:能写一份 5+ 组件的生产 stack
📚 参考资料
官方代码
- browser-use:github.com/browser-use/browser-use
- Stagehand:github.com/browserbase/stagehand
- Skyvern:github.com/Skyvern-AI/skyvern
- UI-TARS-desktop:github.com/bytedance/UI-TARS-desktop
- Browserbase:browserbase.com
横向对比
- Browser-use vs Stagehand (Skyvern Blog):博文
- Stagehand vs Browser Use vs Playwright (NxCode):博文
- 11 Best AI Browser Agents (Firecrawl):博文
- Layout-Resistant Automation Tools (Skyvern Blog):博文