第1章 🎨 多模态 Agent 是什么

一句话:文本 LLM 让 agent 会读会写;Multi-Modal Agent 让 agent 还能看图看视频听语音说话 ——把 agent 从”键盘前的工种”推进到”人类感官等价的工种”。这一章讲清楚为什么 2024-2026 多模态突然爆发,以及它和”传统 CV”到底差在哪。

📑 目录

一、范式跃迁:从单模态到多模态
二、Multi-Modal Agent 三层栈
三、VLM 历史脉络(2021-2026)
四、VLA(Vision-Language-Action)与 GUI Agent
五、与”传统 CV”的本质区别
六、应用场景全景
七、为什么 2024-2026 突然爆发

一、范式跃迁:从单模态到多模态

短短 5 年,LLM 从纯文本走向全模态:

2020  GPT-3                 ── 纯文本
2022  ChatGPT               ── 纯文本对话
2023  GPT-4V                ── 加视觉
2024  GPT-4o ⭐              ── 视觉 + 音频原生
2025  Gemini Live            ── 流式视音频
2026  GPT-5 / Claude Omni   ── 全模态、流式、长上下文

每一步都在把 agent 的”感官”扩展。

1.1 单模态时代(GPT-3 到 ChatGPT)

输入:文本
输出:文本
限制:只能”读用户输入的字”

1.2 视觉加入(GPT-4V,2023-09)

第一次让 LLM 看图说话:

输入:文本 + 图像
输出:文本
应用:看图答题、UI 描述、医疗影像 QA

1.3 多模态原生(GPT-4o,2024-05)⭐

不再是”vision encoder 接 LLM”,而是单一模型原生支持多模态:

输入:文本 / 图像 / 音频(streaming)
输出:文本 / 图像生成 / 音频(streaming)
Realtime API(2024-10)开创流式对话范式

1.4 全模态 + 流式(2025-2026)

Gemini Live(2025):屏幕共享 + 视音频
Qwen2.5-Omni(2025):7B 全模态开源
GPT-5(2026 预期):全模态原生

按 agent 处理多模态的”深度”,今天的多模态 agent 分 3 层:

┌─────────────────────────────────────────────────────┐
│  Tier 3 多模态推理(Vision-Language Reasoning)        │
│   GPT-4o / Claude vision / Qwen2.5-VL                │
│   把图像当 token,与文字混合做长链推理               │
├─────────────────────────────────────────────────────┤
│  Tier 2 跨模态转换(Cross-Modal)                      │
│   OCR / ASR(Whisper)/ TTS(tts-1)                  │
│   单方向:图 → 文 / 音 → 文 / 文 → 音                │
├─────────────────────────────────────────────────────┤
│  Tier 1 单模态感知(Single-Modal Perception)          │
│   ResNet / YOLO / DeepSpeech                         │
│   传统 CV / NLP / Speech                             │
└─────────────────────────────────────────────────────┘

层	例子	模型规模	推理能力
Tier 1	物体检测	10M-100M	单步
Tier 2	OCR / ASR	100M-1B	转换
Tier 3	VLM 推理	7B-1T	长链 ⭐

本模块专注 Tier 3 + 部分 Tier 2 ——把多模态作为 agent 推理输入。

三、VLM 历史脉络(2021-2026)

3.1 第 1 阶段:对比学习时代(2021-2022)

CLIP(OpenAI 2021)是奠基:

4 亿图文对训练
文本 encoder + 图像 encoder,对比损失
不能”生成文本”,只能匹配

意义:证明大规模图文对比学习能学出强 representation,后续所有 VLM 都用 CLIP-like encoder 起步。

3.2 第 2 阶段:Q-Former 桥接(2022-2023)

Flamingo(DeepMind 2022)/ BLIP-2(2023)代表:

┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│ Vision       │  → │  Q-Former /   │  → │  LLM(冻结)   │
│ Encoder      │    │ Cross-Attention│    │  GPT-style    │
│ (CLIP-like)  │    │ (可训练)      │    │              │
└──────────────┘     └──────────────┘     └──────────────┘

视觉 encoder 提 feature
Q-Former 把图像 feature → text-like tokens
LLM 处理”图像 token + 文本”

核心 idea:视觉是另一种 token。

3.3 第 3 阶段:LLaVA 家族(2023-)

LLaVA(Microsoft 2023-04)开源 VLM 鼻祖:

简化:视觉 encoder + linear projection + LLaMA
训练数据:COCO + GPT-4 生成的 instruction(visual instruction tuning)
完全开源,被广泛 fork

后续:LLaVA-1.5(2024-01)、LLaVA-1.6 / Next、LLaVA-OneVision(2024-08)。

3.4 第 4 阶段:商业大爆发(2023-2024)

时间	模型	突破
2023-09	GPT-4V	商用 VLM 起点
2024-03	Claude 3 vision	高质量 OCR / 文档
2024-05	GPT-4o ⭐	多模态原生 + 音频
2024-08	Qwen2-VL	开源 SOTA
2024-12	Qwen2.5-VL ⭐	32/72B 性能赶上闭源
2025-Q3	Gemini 2.5 Pro	1M 上下文
2026	Qwen3-VL / GPT-5 vision	持续推进

3.5 第 5 阶段:Native 多模态(2024-)

GPT-4o 是分水岭——不再是”视觉 encoder + 文本 LLM”两段式,而是单模型原生处理多模态:

同一 transformer 接受 image / audio / text token
输出 image / audio / text token
训练数据天然多模态混合

意义:从”翻译式”到”原生式” ——延迟和质量都跃升。

四、VLA(Vision-Language-Action)与 GUI Agent

VLM 是”看 + 说”,VLA = 看 + 说 + 动:

VLM:
  输入  图 + 文
  输出  文
  应用  视觉问答、文档理解

VLA:
  输入  图 + 文
  输出  文 + Action(click(x,y)/type/drag/...)
  应用  GUI Agent(模块九 Computer Use)、机器人

4.1 VLA 代表

Anthropic Computer Use(2024-10)— 最早商用 VLA
UI-TARS(2025-01,arXiv 2501.12326)— 开源 VLA SOTA
ShowUI / OmniParser / SeeClick(GUI 专项)
OpenVLA / RT-2 / π0(机器人)

4.2 与模块九的关系

模块九(Computer Use)的视觉 grounding 章节就是讨论 VLA。本章作为总览给一个全貌,深入留给模块九。

五、与”传统 CV”的本质区别

很多人会问:“我用 ResNet + YOLO 不行吗?”——Multi-Modal LLM 与传统 CV 是两套范式:

维度	传统 CV	Multi-Modal LLM
任务定义	固定(分类/检测/分割)	自由(自然语言指令)
训练	任务专项	通用预训练 + 指令微调
推理能力	单步	多步链式推理 ⭐
输出	类别/框/掩膜	任意自然语言
泛化	域内强 / 跨域弱	跨域强 ⭐
部署	轻量(MB-100MB)	重(GB-TB)
适用场景	实时、固定任务	长尾、灵活、需推理

5.1 用 ResNet 做”发票数字提取”

1. 训一个 OCR 模型(detect text region + recognize)
2. 训一个 layout 模型(label number/price/date)
3. 写规则把 layout 输出拼成 JSON
   ↓ 总耗时数月,需大量标注

5.2 用 GPT-4o 做”发票数字提取”

1. 给 GPT-4o 一张发票图 + prompt:"提取金额/日期/商家名"
2. 输出 JSON
   ↓ 总耗时 1 天,几乎不需标注

Multi-Modal LLM 把视觉任务”语言化” ——你不再需要为每个新任务专训模型。

六、应用场景全景

场景	典型模型	模态	难度
图像 VQA / 描述	任何 VLM	视觉	★
OCR / 文档智能	Qwen2.5-VL / GPT-4o	视觉	★★
图表理解	Claude / GPT-4o	视觉	★★
数学题图(含公式)	Claude Opus 4.5 / o3	视觉 + 推理	★★★
UI 理解 / 操作	UI-TARS / Anthropic CU	视觉 + Action	★★★★
视频摘要	Gemini 2.5 / Qwen2.5-VL video	视频	★★★
视频问答	Gemini 2.5 / Qwen2.5-Omni	视频	★★★
语音问答	GPT-4o Realtime	音频	★★
流式视频对话	Gemini Live	视频 + 音频	★★★★
医疗影像	专项 fine-tune VLM	视觉	★★★★
自动驾驶	VLA(NVIDIA / Wayve 等)	视频 + Action	★★★★★
机器人控制	RT-2 / OpenVLA / π0	视觉 + Action	★★★★★