第7章:视觉 Grounding 论文精读 —— UI-TARS / OmniParser / SeeClick / CogAgent
Computer Use 视觉 grounding 6+ 篇里程碑论文逐篇精读:UI-TARS、UI-TARS-1.5、OmniParser、SeeClick、CogAgent、Aria-UI、ShowUI
第 2 章讲了 grounding 的工程方法,本章深入论文层——精读 6+ 篇 2024-2026 视觉 grounding 里程碑,串起从”通用 GPT-4V + SoM”到”native VLA 模型”的演进。这些论文构成了 Computer Use 的”算法基础设施”,理解了它们,你就理解了 Anthropic / OpenAI / Google 模型背后的视觉技术栈。
📑 目录
- 0. 时间线与脉络
- 1. Set-of-Marks(2023):grounding 起源
- 2. CogAgent(2023):中国系开山
- 3. SeeClick(2024):专门 click 模型
- 4. OmniParser(2024-12)& v2:screen 解析利器
- 5. UI-TARS(2025-01)⭐:native VLM agent 标杆
- 6. UI-TARS-1.5 / 2:开源 7B SOTA
- 7. ShowUI / Aria-UI:多模态 UI
- 8. 跨论文对比与工业启示
- 自我检验清单
- 参考资料
0. 时间线与脉络
2023-10 ──── Set-of-Marks(Yang et al.) 起源思想
2023-12 ──── CogAgent(Zhipu) 中国系第一个 GUI VLM
2024-01 ──── SeeClick 专门 click 预测模型
2024-08 ──── OmniParser v1 screen → SoM 工具
2024-11 ──── ShowUI 多模态 UI 训练
2024-12 ──── OmniParser v2(微软,大幅升级)
2025-01 ──── UI-TARS ⭐⭐(arXiv 2501.12326) native VLM agent 标杆
2025-04 ──── UI-TARS-1.5(7B 开源) SOTA 性能
2025-Q3 ──── Aria-UI 多模态 GUI 理解
2025-Q4 ──── UI-TARS-2(scale up) 持续演进
🌟 2024-2025 是 GUI VLM 论文密度爆炸期——这 6+ 篇构成了完整地图。
1. Set-of-Marks(2023):grounding 起源
Yang et al., “Set-of-Mark Prompting”, arXiv 2310.11441
1.1 核心想法
不要让 GPT-4V 输出坐标——给图打标号,让它选
原图(GPT-4V 看不准坐标):
[按钮 A] [按钮 B]
加 SoM 标号(GPT-4V 100% 选对):
[1: 按钮 A] [2: 按钮 B]
GPT-4V output: "I want button 1"
后台:1 → coords (50, 30)
1.2 实验结果
GPT-4V 在 RefCOCO grounding 任务上:
- 无 SoM:34%
- 加 SoM:73%(+39%)
🍎 思想极简,效果极强——开启了一条”绕开 LLM 坐标短板”的工程路线。
1.3 工业落地
OmniParser、browser-use、Stagehand 等几乎所有 web agent 都用 SoM 风格——一直影响到 2026。
2. CogAgent(2023):中国系开山
Zhipu AI, arXiv 2312.08914,2023-12
2.1 核心创新
第一个专门为 GUI agent 训练的 VLM(超越 GPT-4V 的”通用图像理解”):
- 18B 参数 + 高分辨率视觉(1120×1120,而非 GPT-4V 的 224×224)
- 训练数据:GUI 截图 + element annotation
- 直接预测 click 坐标(端到端)
2.2 性能(2023-12 时)
在 GUI benchmark 上 CogAgent 18B 显著超过 GPT-4V——证明专用模型 < 通用模型 + 工程这个直觉是错的。
2.3 影响
CogAgent 是中国系 GUI VLM 的开山——后续 ShowUI、UI-TARS、Aria-UI 都受其影响。
3. SeeClick(2024):专门 click 模型
Cheng et al., 2024-01,arXiv 2401.10935
3.1 核心想法
只做一件事:给图 + 文字描述,预测 click 坐标
Input:
Image: <screenshot>
Instruction: "click the search button"
Output:
<click>120, 340</click>
不做对话、不做 reasoning,专精 click prediction。
3.2 工业用法
SeeClick 作为通用 VLM(GPT-4o / Claude)的”补丁”:
GPT-4o(决定 high-level 动作)
↓ "我要点登录按钮"
SeeClick(精确坐标)
↓ click(120, 340)
GPT-4o 决定语义,SeeClick 给坐标——两个模型协作,精度比单纯用 GPT-4o 高 10-15%。
3.3 局限
- 只输出坐标,不参与决策
- 仍需要外部 reasoning
- 训练数据有限(对长尾应用泛化弱)
4. OmniParser(2024-12)& v2:screen 解析利器
Microsoft Research,github.com/microsoft/OmniParser
4.1 v1(2024-08)
- screen → bbox + element type + 文本
- 用于 SoM 标注的辅助
- 与 GPT-4V 配合,在 ScreenSpot 等 benchmark 强势
4.2 v2(2024-12)
大升级:
- 支持更多 UI 元素类型(自定义 widget、图标)
- bbox 精度提升 20%+
- 速度更快(可实时跑)
4.3 工业用法
from omniparser import OmniParser
parser = OmniParser()
result = parser.parse("screenshot.png")
# result.elements:
# [
# {"id": 1, "bbox": [50, 30, 120, 60], "type": "button", "text": "Login", ...},
# {"id": 2, "bbox": [200, 100, 350, 130], "type": "input", "placeholder": "Email", ...},
# ...
# ]
# 配合 GPT-4o + SoM:
# 1. OmniParser 标记
# 2. 把标号图给 GPT-4o
# 3. GPT-4o "我点 1 号"
# 4. 后台映射 → click(50, 30)
4.4 适合
不想 fine-tune 模型 + 用通用 VLM(GPT-4o / Claude) 的所有团队——OmniParser 让你用通用 VLM 也能拿 native VLM 80% 的精度。
5. UI-TARS(2025-01)⭐:native VLM agent 标杆
ByteDance Seed,arXiv 2501.12326
5.1 4 大核心创新(详见第 2 章)
- 大规模 GUI 训练数据(数百万 screenshot + action)
- 5 类训练任务:element description / dense captioning / state transition / QA / SoM prompting
- Native coordinate prediction(端到端坐标输出)
- Trajectory memory(历史 screenshot 嵌入 input)
5.2 训练范式
Stage 1: 大规模 pre-training(GUI screenshot + text caption)
Stage 2: 多任务 SFT(5 类任务)
Stage 3: Reflection-tuning(error → correction)
Stage 4: RL(模块七的思想,用 GUI verifier)
🌟 第 4 阶段 RL 是 UI-TARS 区别于 CogAgent 的关键——RL 让模型学会”做错时怎么改”。
5.3 性能
UI-TARS-7B 在 OSWorld、Mind2Web、AndroidWorld 等 GUI benchmark 上超过 GPT-4o + 工程——开源 7B 完胜闭源 200B+。
5.4 工业意义
UI-TARS 把”native GUI VLM”从概念变成可复用范式:
- 之后 Anthropic、OpenAI、Google 内部都做了类似训练
- 中国系 ShowUI、Aria-UI、CogAgent v2 等都跟进
6. UI-TARS-1.5 / 2:开源 7B SOTA
6.1 UI-TARS-1.5(2025-04)
- 7B 参数(Hugging Face 开源)
- 改进训练数据 + 更多 RL
- OSWorld 42% / WebVoyager 80% / AndroidWorld 50%
🌟 小模型大作为——7B 能跑出比闭源大模型更好的 GUI 性能。
6.2 UI-TARS-2(2025-Q4)
- 更大规模训练
- 多模态扩展(支持视频、3D 桌面)
- 新 SOTA(估 OSWorld 50%+)
6.3 工业落地价值
UI-TARS-1.5 / 2 让 私有部署 GUI agent 成为现实:
- 不用商业 API
- 数据不出网
- $/任务 比 API 便宜 100-1000x
7. ShowUI / Aria-UI:多模态 UI
7.1 ShowUI(2024-11)
arXiv 2411.17465
聚焦”如何用 VLM 理解 GUI 截图”:
- UI-Guided visual token selection(智能裁剪截图)
- Interleaved vision-language streaming(多帧序列)
- 比通用 VLM 在 GUI 任务上节省 30%+ token
7.2 Aria-UI
2025-Q3,Rhymes AI
通用 GUI VLM,对中文 UI 优化——很多英文 VLM 在中文 app 上 grounding 翻车,Aria-UI 是中文场景的有力补充。
8. 跨论文对比与工业启示
8.1 对照表
| 论文 | 范式 | 适合 |
|---|---|---|
| Set-of-Marks(2023) | 通用 VLM + 标注 | 不想 fine-tune |
| CogAgent(2023) | 18B 通用 GUI VLM | 不再主流 |
| SeeClick(2024) | 专门 click 小模型 | 与通用 VLM 配合 |
| OmniParser v2(2024) | screen → 元素列表 | 加在 GPT-4o 前面 |
| UI-TARS(2025) | Native GUI VLM 标杆 | 自训 / 自托管 |
| UI-TARS-1.5(2025) | 开源 7B SOTA | 私有部署 |
| ShowUI / Aria-UI | 多模态 / 中文 | 特殊场景 |
8.2 演进趋势
2023: 通用 VLM(GPT-4V) + 工程(SoM)
↓
2024: 专用辅助模型(OmniParser, SeeClick) + 通用 VLM
↓
2025: Native GUI VLM(UI-TARS, CogAgent v2)
↓
2026: 多模态 + 长 horizon + RL 训练(下一代)
🌟 每代都在”减少对通用 VLM 的依赖”——专用模型逐步取代”通用 VLM + 工程”。
8.3 工业落地组合
Tier 1:零门槛
GPT-4o / Claude API + OmniParser + SoM
→ 5 行代码起步,精度 ~80%
Tier 2:中等优化
GPT-4o + SeeClick(精确 grounding)
→ 精度 ~85%
Tier 3:私有部署 / 极致性能
UI-TARS-1.5 自跑(7B)
→ 精度 ~90%(SOTA),成本最低
Tier 4:商业 SOTA
Anthropic Computer Use / Gemini CU
→ 精度最高,贵
✅ 自我检验清单
- Set-of-Marks 思想:能用图示讲清”标号 → LLM 选”的流程
- SoM 实验结果:能默写 GPT-4V 加 SoM 提升 39%
- CogAgent 创新:能解释”专用 GUI VLM”为什么超越通用 + 工程
- SeeClick 用法:能讲清”GPT-4o 决定语义,SeeClick 给坐标”协作
- OmniParser v2:能写一段调用代码,以及与 GPT-4o + SoM 的配合
- UI-TARS 4 创新:能默写训练数据 / 5 类任务 / native coordinate / trajectory memory
- UI-TARS 4 阶段训练:能默写 pre-training / SFT / reflection / RL
- UI-TARS-1.5 价值:能解释 7B 开源对私有部署的意义
- ShowUI / Aria-UI:能讲各自特色场景
- 演进趋势:能默写”通用 + 工程 → 辅助模型 → native VLM”
- 4 Tier 落地组合:能根据成本 / 性能给出推荐
📚 参考资料
论文 ⭐
- Set-of-Marks (Yang et al., 2023):arXiv 2310.11441
- CogAgent (Zhipu, 2023):arXiv 2312.08914
- SeeClick (2024):arXiv 2401.10935
- OmniParser (2024-08):arXiv 2408.00203
- OmniParser v2(微软):github.com/microsoft/OmniParser
- UI-TARS (2025-01):arXiv 2501.12326 ⭐
- ShowUI (2024-11):arXiv 2411.17465
代码
- UI-TARS GitHub:github.com/bytedance/UI-TARS
- UI-TARS-1.5-7B:HuggingFace
- OmniParser:github.com/microsoft/OmniParser
- SeeClick:github.com/njucckevin/SeeClick
解读
- UI-TARS open-source release:ByteDance Seed Blog
- UI-TARS overview:VentureBeat
- UI-TARS Hits 27K GitHub Stars:DEV