跳到主要内容
Computer Use

第7章:视觉 Grounding 论文精读 —— UI-TARS / OmniParser / SeeClick / CogAgent

Computer Use 视觉 grounding 6+ 篇里程碑论文逐篇精读:UI-TARS、UI-TARS-1.5、OmniParser、SeeClick、CogAgent、Aria-UI、ShowUI

UI-TARS OmniParser SeeClick CogAgent ShowUI VLM

第 2 章讲了 grounding 的工程方法,本章深入论文层——精读 6+ 篇 2024-2026 视觉 grounding 里程碑,串起从”通用 GPT-4V + SoM”到”native VLA 模型”的演进。这些论文构成了 Computer Use 的”算法基础设施”,理解了它们,你就理解了 Anthropic / OpenAI / Google 模型背后的视觉技术栈。

📑 目录


0. 时间线与脉络

2023-10 ──── Set-of-Marks(Yang et al.)              起源思想
2023-12 ──── CogAgent(Zhipu)                       中国系第一个 GUI VLM
2024-01 ──── SeeClick                               专门 click 预测模型
2024-08 ──── OmniParser v1                          screen → SoM 工具
2024-11 ──── ShowUI                                 多模态 UI 训练
2024-12 ──── OmniParser v2(微软,大幅升级)
2025-01 ──── UI-TARS ⭐⭐(arXiv 2501.12326)        native VLM agent 标杆
2025-04 ──── UI-TARS-1.5(7B 开源)                  SOTA 性能
2025-Q3 ──── Aria-UI                               多模态 GUI 理解
2025-Q4 ──── UI-TARS-2(scale up)                   持续演进

🌟 2024-2025 是 GUI VLM 论文密度爆炸期——这 6+ 篇构成了完整地图。


1. Set-of-Marks(2023):grounding 起源

Yang et al., “Set-of-Mark Prompting”, arXiv 2310.11441

1.1 核心想法

不要让 GPT-4V 输出坐标——给图打标号,让它选

原图(GPT-4V 看不准坐标):
  [按钮 A] [按钮 B]

加 SoM 标号(GPT-4V 100% 选对):
  [1: 按钮 A] [2: 按钮 B]

GPT-4V output: "I want button 1"
后台:1 → coords (50, 30)

1.2 实验结果

GPT-4V 在 RefCOCO grounding 任务上:

  • 无 SoM:34%
  • 加 SoM:73%(+39%)

🍎 思想极简,效果极强——开启了一条”绕开 LLM 坐标短板”的工程路线。

1.3 工业落地

OmniParser、browser-use、Stagehand 等几乎所有 web agent 都用 SoM 风格——一直影响到 2026


2. CogAgent(2023):中国系开山

Zhipu AI, arXiv 2312.08914,2023-12

2.1 核心创新

第一个专门为 GUI agent 训练的 VLM(超越 GPT-4V 的”通用图像理解”):

  • 18B 参数 + 高分辨率视觉(1120×1120,而非 GPT-4V 的 224×224)
  • 训练数据:GUI 截图 + element annotation
  • 直接预测 click 坐标(端到端)

2.2 性能(2023-12 时)

在 GUI benchmark 上 CogAgent 18B 显著超过 GPT-4V——证明专用模型 < 通用模型 + 工程这个直觉是错的。

2.3 影响

CogAgent 是中国系 GUI VLM 的开山——后续 ShowUI、UI-TARS、Aria-UI 都受其影响。


3. SeeClick(2024):专门 click 模型

Cheng et al., 2024-01,arXiv 2401.10935

3.1 核心想法

只做一件事:给图 + 文字描述,预测 click 坐标

Input:
  Image: <screenshot>
  Instruction: "click the search button"

Output:
  <click>120, 340</click>

不做对话、不做 reasoning,专精 click prediction

3.2 工业用法

SeeClick 作为通用 VLM(GPT-4o / Claude)的”补丁”:

GPT-4o(决定 high-level 动作)
  ↓ "我要点登录按钮"
SeeClick(精确坐标)
  ↓ click(120, 340)

GPT-4o 决定语义,SeeClick 给坐标——两个模型协作,精度比单纯用 GPT-4o 高 10-15%。

3.3 局限

  • 只输出坐标,不参与决策
  • 仍需要外部 reasoning
  • 训练数据有限(对长尾应用泛化弱)

4. OmniParser(2024-12)& v2:screen 解析利器

Microsoft Research,github.com/microsoft/OmniParser

4.1 v1(2024-08)

  • screen → bbox + element type + 文本
  • 用于 SoM 标注的辅助
  • 与 GPT-4V 配合,在 ScreenSpot 等 benchmark 强势

4.2 v2(2024-12)

大升级:

  • 支持更多 UI 元素类型(自定义 widget、图标)
  • bbox 精度提升 20%+
  • 速度更快(可实时跑)

4.3 工业用法

from omniparser import OmniParser

parser = OmniParser()
result = parser.parse("screenshot.png")

# result.elements:
# [
#   {"id": 1, "bbox": [50, 30, 120, 60], "type": "button", "text": "Login", ...},
#   {"id": 2, "bbox": [200, 100, 350, 130], "type": "input", "placeholder": "Email", ...},
#   ...
# ]

# 配合 GPT-4o + SoM:
# 1. OmniParser 标记
# 2. 把标号图给 GPT-4o
# 3. GPT-4o "我点 1 号"
# 4. 后台映射 → click(50, 30)

4.4 适合

不想 fine-tune 模型 + 用通用 VLM(GPT-4o / Claude) 的所有团队——OmniParser 让你用通用 VLM 也能拿 native VLM 80% 的精度。


5. UI-TARS(2025-01)⭐:native VLM agent 标杆

ByteDance Seed,arXiv 2501.12326

5.1 4 大核心创新(详见第 2 章)

  1. 大规模 GUI 训练数据(数百万 screenshot + action)
  2. 5 类训练任务:element description / dense captioning / state transition / QA / SoM prompting
  3. Native coordinate prediction(端到端坐标输出)
  4. Trajectory memory(历史 screenshot 嵌入 input)

5.2 训练范式

Stage 1: 大规模 pre-training(GUI screenshot + text caption)
Stage 2: 多任务 SFT(5 类任务)
Stage 3: Reflection-tuning(error → correction)
Stage 4: RL(模块七的思想,用 GUI verifier)

🌟 第 4 阶段 RL 是 UI-TARS 区别于 CogAgent 的关键——RL 让模型学会”做错时怎么改”。

5.3 性能

UI-TARS-7B 在 OSWorld、Mind2Web、AndroidWorld 等 GUI benchmark 上超过 GPT-4o + 工程——开源 7B 完胜闭源 200B+。

5.4 工业意义

UI-TARS 把”native GUI VLM”从概念变成可复用范式:

  • 之后 Anthropic、OpenAI、Google 内部都做了类似训练
  • 中国系 ShowUI、Aria-UI、CogAgent v2 等都跟进

6. UI-TARS-1.5 / 2:开源 7B SOTA

6.1 UI-TARS-1.5(2025-04)

  • 7B 参数(Hugging Face 开源)
  • 改进训练数据 + 更多 RL
  • OSWorld 42% / WebVoyager 80% / AndroidWorld 50%

🌟 小模型大作为——7B 能跑出比闭源大模型更好的 GUI 性能。

6.2 UI-TARS-2(2025-Q4)

  • 更大规模训练
  • 多模态扩展(支持视频、3D 桌面)
  • 新 SOTA(估 OSWorld 50%+)

6.3 工业落地价值

UI-TARS-1.5 / 2 让 私有部署 GUI agent 成为现实:

  • 不用商业 API
  • 数据不出网
  • $/任务 比 API 便宜 100-1000x

7. ShowUI / Aria-UI:多模态 UI

7.1 ShowUI(2024-11)

arXiv 2411.17465

聚焦”如何用 VLM 理解 GUI 截图”:

  • UI-Guided visual token selection(智能裁剪截图)
  • Interleaved vision-language streaming(多帧序列)
  • 比通用 VLM 在 GUI 任务上节省 30%+ token

7.2 Aria-UI

2025-Q3,Rhymes AI

通用 GUI VLM,对中文 UI 优化——很多英文 VLM 在中文 app 上 grounding 翻车,Aria-UI 是中文场景的有力补充。


8. 跨论文对比与工业启示

8.1 对照表

论文范式适合
Set-of-Marks(2023)通用 VLM + 标注不想 fine-tune
CogAgent(2023)18B 通用 GUI VLM不再主流
SeeClick(2024)专门 click 小模型与通用 VLM 配合
OmniParser v2(2024)screen → 元素列表加在 GPT-4o 前面
UI-TARS(2025)Native GUI VLM 标杆自训 / 自托管
UI-TARS-1.5(2025)开源 7B SOTA私有部署
ShowUI / Aria-UI多模态 / 中文特殊场景

8.2 演进趋势

2023:  通用 VLM(GPT-4V) + 工程(SoM)

2024:  专用辅助模型(OmniParser, SeeClick) + 通用 VLM

2025:  Native GUI VLM(UI-TARS, CogAgent v2)

2026:  多模态 + 长 horizon + RL 训练(下一代)

🌟 每代都在”减少对通用 VLM 的依赖”——专用模型逐步取代”通用 VLM + 工程”。

8.3 工业落地组合

Tier 1:零门槛
  GPT-4o / Claude API + OmniParser + SoM
  → 5 行代码起步,精度 ~80%

Tier 2:中等优化
  GPT-4o + SeeClick(精确 grounding)
  → 精度 ~85%

Tier 3:私有部署 / 极致性能
  UI-TARS-1.5 自跑(7B)
  → 精度 ~90%(SOTA),成本最低

Tier 4:商业 SOTA
  Anthropic Computer Use / Gemini CU
  → 精度最高,贵

✅ 自我检验清单

  • Set-of-Marks 思想:能用图示讲清”标号 → LLM 选”的流程
  • SoM 实验结果:能默写 GPT-4V 加 SoM 提升 39%
  • CogAgent 创新:能解释”专用 GUI VLM”为什么超越通用 + 工程
  • SeeClick 用法:能讲清”GPT-4o 决定语义,SeeClick 给坐标”协作
  • OmniParser v2:能写一段调用代码,以及与 GPT-4o + SoM 的配合
  • UI-TARS 4 创新:能默写训练数据 / 5 类任务 / native coordinate / trajectory memory
  • UI-TARS 4 阶段训练:能默写 pre-training / SFT / reflection / RL
  • UI-TARS-1.5 价值:能解释 7B 开源对私有部署的意义
  • ShowUI / Aria-UI:能讲各自特色场景
  • 演进趋势:能默写”通用 + 工程 → 辅助模型 → native VLM”
  • 4 Tier 落地组合:能根据成本 / 性能给出推荐

📚 参考资料

论文 ⭐

代码

解读