第7章：视觉 Grounding 论文精读 —— UI-TARS / OmniParser / SeeClick / CogAgent

第 2 章讲了 grounding 的工程方法,本章深入论文层——精读 6+ 篇 2024-2026 视觉 grounding 里程碑,串起从”通用 GPT-4V + SoM”到”native VLA 模型”的演进。这些论文构成了 Computer Use 的”算法基础设施”,理解了它们,你就理解了 Anthropic / OpenAI / Google 模型背后的视觉技术栈。

📑 目录

0. 时间线与脉络
1. Set-of-Marks(2023):grounding 起源
2. CogAgent(2023):中国系开山
3. SeeClick(2024):专门 click 模型
4. OmniParser(2024-12)& v2:screen 解析利器
5. UI-TARS(2025-01)⭐:native VLM agent 标杆
6. UI-TARS-1.5 / 2:开源 7B SOTA
7. ShowUI / Aria-UI:多模态 UI
8. 跨论文对比与工业启示
自我检验清单
参考资料

0. 时间线与脉络

2023-10 ──── Set-of-Marks(Yang et al.)              起源思想
2023-12 ──── CogAgent(Zhipu)                       中国系第一个 GUI VLM
2024-01 ──── SeeClick                               专门 click 预测模型
2024-08 ──── OmniParser v1                          screen → SoM 工具
2024-11 ──── ShowUI                                 多模态 UI 训练
2024-12 ──── OmniParser v2(微软,大幅升级)
2025-01 ──── UI-TARS ⭐⭐(arXiv 2501.12326)        native VLM agent 标杆
2025-04 ──── UI-TARS-1.5(7B 开源)                  SOTA 性能
2025-Q3 ──── Aria-UI                               多模态 GUI 理解
2025-Q4 ──── UI-TARS-2(scale up)                   持续演进

🌟 2024-2025 是 GUI VLM 论文密度爆炸期——这 6+ 篇构成了完整地图。

1. Set-of-Marks(2023):grounding 起源

Yang et al., “Set-of-Mark Prompting”, arXiv 2310.11441

1.1 核心想法

不要让 GPT-4V 输出坐标——给图打标号,让它选

原图(GPT-4V 看不准坐标):
  [按钮 A] [按钮 B]

加 SoM 标号(GPT-4V 100% 选对):
  [1: 按钮 A] [2: 按钮 B]

GPT-4V output: "I want button 1"
后台:1 → coords (50, 30)

1.2 实验结果

GPT-4V 在 RefCOCO grounding 任务上:

无 SoM:34%
加 SoM:73%(+39%)

🍎 思想极简,效果极强——开启了一条”绕开 LLM 坐标短板”的工程路线。

1.3 工业落地

OmniParser、browser-use、Stagehand 等几乎所有 web agent 都用 SoM 风格——一直影响到 2026。

2. CogAgent(2023):中国系开山

Zhipu AI, arXiv 2312.08914,2023-12

2.1 核心创新

第一个专门为 GUI agent 训练的 VLM(超越 GPT-4V 的”通用图像理解”):

18B 参数 + 高分辨率视觉(1120×1120,而非 GPT-4V 的 224×224)
训练数据:GUI 截图 + element annotation
直接预测 click 坐标(端到端)

2.2 性能(2023-12 时)

在 GUI benchmark 上 CogAgent 18B 显著超过 GPT-4V——证明专用模型 < 通用模型 + 工程这个直觉是错的。

2.3 影响

CogAgent 是中国系 GUI VLM 的开山——后续 ShowUI、UI-TARS、Aria-UI 都受其影响。

3. SeeClick(2024):专门 click 模型

Cheng et al., 2024-01,arXiv 2401.10935

3.1 核心想法

只做一件事:给图 + 文字描述,预测 click 坐标

Input:
  Image: <screenshot>
  Instruction: "click the search button"

Output:
  <click>120, 340</click>

不做对话、不做 reasoning,专精 click prediction。

3.2 工业用法

SeeClick 作为通用 VLM(GPT-4o / Claude)的”补丁”:

GPT-4o(决定 high-level 动作)
  ↓ "我要点登录按钮"
SeeClick(精确坐标)
  ↓ click(120, 340)

GPT-4o 决定语义,SeeClick 给坐标——两个模型协作,精度比单纯用 GPT-4o 高 10-15%。

3.3 局限

只输出坐标,不参与决策
仍需要外部 reasoning
训练数据有限(对长尾应用泛化弱)

4. OmniParser(2024-12)& v2:screen 解析利器

Microsoft Research,github.com/microsoft/OmniParser

4.1 v1(2024-08)

screen → bbox + element type + 文本
用于 SoM 标注的辅助
与 GPT-4V 配合,在 ScreenSpot 等 benchmark 强势

4.2 v2(2024-12)

大升级:

支持更多 UI 元素类型(自定义 widget、图标)
bbox 精度提升 20%+
速度更快(可实时跑)

4.3 工业用法

from omniparser import OmniParser

parser = OmniParser()
result = parser.parse("screenshot.png")

# result.elements:
# [
#   {"id": 1, "bbox": [50, 30, 120, 60], "type": "button", "text": "Login", ...},
#   {"id": 2, "bbox": [200, 100, 350, 130], "type": "input", "placeholder": "Email", ...},
#   ...
# ]

# 配合 GPT-4o + SoM:
# 1. OmniParser 标记
# 2. 把标号图给 GPT-4o
# 3. GPT-4o "我点 1 号"
# 4. 后台映射 → click(50, 30)

4.4 适合

不想 fine-tune 模型 + 用通用 VLM(GPT-4o / Claude) 的所有团队——OmniParser 让你用通用 VLM 也能拿 native VLM 80% 的精度。

5. UI-TARS(2025-01)⭐:native VLM agent 标杆

ByteDance Seed,arXiv 2501.12326

5.1 4 大核心创新(详见第 2 章)

大规模 GUI 训练数据(数百万 screenshot + action)
5 类训练任务:element description / dense captioning / state transition / QA / SoM prompting
Native coordinate prediction(端到端坐标输出)
Trajectory memory(历史 screenshot 嵌入 input)

5.2 训练范式

Stage 1: 大规模 pre-training(GUI screenshot + text caption)
Stage 2: 多任务 SFT(5 类任务)
Stage 3: Reflection-tuning(error → correction)
Stage 4: RL(模块七的思想,用 GUI verifier)

🌟 第 4 阶段 RL 是 UI-TARS 区别于 CogAgent 的关键——RL 让模型学会”做错时怎么改”。

5.3 性能

UI-TARS-7B 在 OSWorld、Mind2Web、AndroidWorld 等 GUI benchmark 上超过 GPT-4o + 工程——开源 7B 完胜闭源 200B+。

5.4 工业意义

UI-TARS 把”native GUI VLM”从概念变成可复用范式:

之后 Anthropic、OpenAI、Google 内部都做了类似训练
中国系 ShowUI、Aria-UI、CogAgent v2 等都跟进

6. UI-TARS-1.5 / 2:开源 7B SOTA

6.1 UI-TARS-1.5(2025-04)

7B 参数(Hugging Face 开源)
改进训练数据 + 更多 RL
OSWorld 42% / WebVoyager 80% / AndroidWorld 50%

🌟 小模型大作为——7B 能跑出比闭源大模型更好的 GUI 性能。

6.2 UI-TARS-2(2025-Q4)

更大规模训练
多模态扩展(支持视频、3D 桌面)
新 SOTA(估 OSWorld 50%+)

6.3 工业落地价值

UI-TARS-1.5 / 2 让 私有部署 GUI agent 成为现实:

不用商业 API
数据不出网
$/任务比 API 便宜 100-1000x

7. ShowUI / Aria-UI:多模态 UI

7.1 ShowUI(2024-11)

arXiv 2411.17465

聚焦”如何用 VLM 理解 GUI 截图”:

UI-Guided visual token selection(智能裁剪截图)
Interleaved vision-language streaming(多帧序列)
比通用 VLM 在 GUI 任务上节省 30%+ token

7.2 Aria-UI

2025-Q3,Rhymes AI

通用 GUI VLM,对中文 UI 优化——很多英文 VLM 在中文 app 上 grounding 翻车,Aria-UI 是中文场景的有力补充。

8. 跨论文对比与工业启示

8.1 对照表

论文	范式	适合
Set-of-Marks(2023)	通用 VLM + 标注	不想 fine-tune
CogAgent(2023)	18B 通用 GUI VLM	不再主流
SeeClick(2024)	专门 click 小模型	与通用 VLM 配合
OmniParser v2(2024)	screen → 元素列表	加在 GPT-4o 前面
UI-TARS(2025)	Native GUI VLM 标杆	自训 / 自托管
UI-TARS-1.5(2025)	开源 7B SOTA	私有部署
ShowUI / Aria-UI	多模态 / 中文	特殊场景

8.2 演进趋势

2023:  通用 VLM(GPT-4V) + 工程(SoM)
              ↓
2024:  专用辅助模型(OmniParser, SeeClick) + 通用 VLM
              ↓
2025:  Native GUI VLM(UI-TARS, CogAgent v2)
              ↓
2026:  多模态 + 长 horizon + RL 训练(下一代)

🌟 每代都在”减少对通用 VLM 的依赖”——专用模型逐步取代”通用 VLM + 工程”。

8.3 工业落地组合

Tier 1:零门槛
  GPT-4o / Claude API + OmniParser + SoM
  → 5 行代码起步,精度 ~80%

Tier 2:中等优化
  GPT-4o + SeeClick(精确 grounding)
  → 精度 ~85%

Tier 3:私有部署 / 极致性能
  UI-TARS-1.5 自跑(7B)
  → 精度 ~90%(SOTA),成本最低

Tier 4:商业 SOTA
  Anthropic Computer Use / Gemini CU
  → 精度最高,贵

✅ 自我检验清单

📚 参考资料

论文 ⭐

Set-of-Marks (Yang et al., 2023):arXiv 2310.11441
CogAgent (Zhipu, 2023):arXiv 2312.08914
SeeClick (2024):arXiv 2401.10935
OmniParser (2024-08):arXiv 2408.00203
OmniParser v2(微软):github.com/microsoft/OmniParser
UI-TARS (2025-01):arXiv 2501.12326 ⭐
ShowUI (2024-11):arXiv 2411.17465

代码

UI-TARS GitHub:github.com/bytedance/UI-TARS
UI-TARS-1.5-7B:HuggingFace
OmniParser:github.com/microsoft/OmniParser
SeeClick:github.com/njucckevin/SeeClick

解读

UI-TARS open-source release:ByteDance Seed Blog
UI-TARS overview:VentureBeat
UI-TARS Hits 27K GitHub Stars:DEV

搜索