🖥️ Computer Use 9 篇文章 · 9 个章节
模块九:Computer / Browser Use Agents
Agent 直接操作真实软件:从视觉 Grounding 与 VLA 架构、Anthropic/OpenAI/Google 三大商业 API、browser-use/Stagehand/Skyvern 等开源框架、UI-TARS 等 VLM 论文,到 WebVoyager/OSWorld 评测和电商订单 agent 端到端实战。
开始学习章节目录
从调 API 到用屏幕——agent 范式根本转变,三层栈、核心循环、与 RPA 的本质区别、应用场景
Set-of-Marks、Coordinate vs Action grounding、DOM-aware vs Vision-only、UI-TARS 统一 VLM 架构、训练数据 4 类任务
Anthropic Computer Use(portable)、OpenAI Codex Background CU(macOS)、Google Gemini Computer Use(browser)三家定位、API 用法、Pricing 与选型
5 大主流开源 browser/desktop 自动化框架横评:browser-use(91K stars)、Stagehand、Skyvern、UI-TARS-desktop、Browserbase
桌面层 Computer Use 开源框架:OpenAdapt、Self-Operating Computer、Cradle、Open Interpreter、OS-Copilot 等
WebVoyager、Online-Mind2Web、OSWorld、AndroidWorld、VisualWebArena 五大 benchmark 详解,SOTA 数据,An Illusion of Progress 反思
Computer Use 视觉 grounding 6+ 篇里程碑论文逐篇精读:UI-TARS、UI-TARS-1.5、OmniParser、SeeClick、CogAgent、Aria-UI、ShowUI
Sandbox 隔离、CAPTCHA/2FA、Prompt Injection 防御、Cost 控制、Reliability、审计 Trace 等 Computer Use 生产 8 大关注
完整可跑的 Computer Use 实战:browser-use + Claude + Browserbase 自动化电商比价/加购/下单流程,Tier 1-3 三层方案对比
学习建议
前置要求
Agent Runtime(模块六)+ 一定的视觉/多模态背景
- UI-TARS(arXiv 2501.12326)是开源 GUI VLM 标杆,精读必看
- browser-use 是开源 web 自动化事实标准,先跑通它再看其他框架
- 生产部署务必关注 prompt injection 风险——网页内容里可能藏着 attack