第1章 多模态 Agent 是什么
从纯文本 Agent 到 Multi-Modal Agent 的范式跃迁、3 层栈、VLM/VLA 历史脉络、与传统 CV 的本质区别、应用场景全景
第1章 🎨 多模态 Agent 是什么
一句话:文本 LLM 让 agent 会读会写;Multi-Modal Agent 让 agent 还能看图看视频听语音说话 ——把 agent 从”键盘前的工种”推进到”人类感官等价的工种”。这一章讲清楚为什么 2024-2026 多模态突然爆发,以及它和”传统 CV”到底差在哪。
📑 目录
- 一、范式跃迁:从单模态到多模态
- 二、Multi-Modal Agent 三层栈
- 三、VLM 历史脉络(2021-2026)
- 四、VLA(Vision-Language-Action)与 GUI Agent
- 五、与”传统 CV”的本质区别
- 六、应用场景全景
- 七、为什么 2024-2026 突然爆发
一、范式跃迁:从单模态到多模态
短短 5 年,LLM 从纯文本走向全模态:
2020 GPT-3 ── 纯文本
2022 ChatGPT ── 纯文本对话
2023 GPT-4V ── 加视觉
2024 GPT-4o ⭐ ── 视觉 + 音频原生
2025 Gemini Live ── 流式视音频
2026 GPT-5 / Claude Omni ── 全模态、流式、长上下文
每一步都在把 agent 的”感官”扩展。
1.1 单模态时代(GPT-3 到 ChatGPT)
- 输入:文本
- 输出:文本
- 限制:只能”读用户输入的字”
1.2 视觉加入(GPT-4V,2023-09)
第一次让 LLM 看图说话:
- 输入:文本 + 图像
- 输出:文本
- 应用:看图答题、UI 描述、医疗影像 QA
1.3 多模态原生(GPT-4o,2024-05)⭐
不再是”vision encoder 接 LLM”,而是单一模型原生支持多模态:
- 输入:文本 / 图像 / 音频(streaming)
- 输出:文本 / 图像生成 / 音频(streaming)
- Realtime API(2024-10)开创流式对话范式
1.4 全模态 + 流式(2025-2026)
- Gemini Live(2025):屏幕共享 + 视音频
- Qwen2.5-Omni(2025):7B 全模态开源
- GPT-5(2026 预期):全模态原生
二、Multi-Modal Agent 三层栈
按 agent 处理多模态的”深度”,今天的多模态 agent 分 3 层:
┌─────────────────────────────────────────────────────┐
│ Tier 3 多模态推理(Vision-Language Reasoning) │
│ GPT-4o / Claude vision / Qwen2.5-VL │
│ 把图像当 token,与文字混合做长链推理 │
├─────────────────────────────────────────────────────┤
│ Tier 2 跨模态转换(Cross-Modal) │
│ OCR / ASR(Whisper)/ TTS(tts-1) │
│ 单方向:图 → 文 / 音 → 文 / 文 → 音 │
├─────────────────────────────────────────────────────┤
│ Tier 1 单模态感知(Single-Modal Perception) │
│ ResNet / YOLO / DeepSpeech │
│ 传统 CV / NLP / Speech │
└─────────────────────────────────────────────────────┘
| 层 | 例子 | 模型规模 | 推理能力 |
|---|---|---|---|
| Tier 1 | 物体检测 | 10M-100M | 单步 |
| Tier 2 | OCR / ASR | 100M-1B | 转换 |
| Tier 3 | VLM 推理 | 7B-1T | 长链 ⭐ |
本模块专注 Tier 3 + 部分 Tier 2 ——把多模态作为 agent 推理输入。
三、VLM 历史脉络(2021-2026)
3.1 第 1 阶段:对比学习时代(2021-2022)
CLIP(OpenAI 2021)是奠基:
- 4 亿图文对训练
- 文本 encoder + 图像 encoder,对比损失
- 不能”生成文本”,只能匹配
意义:证明大规模图文对比学习能学出强 representation,后续所有 VLM 都用 CLIP-like encoder 起步。
3.2 第 2 阶段:Q-Former 桥接(2022-2023)
Flamingo(DeepMind 2022)/ BLIP-2(2023)代表:
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Vision │ → │ Q-Former / │ → │ LLM(冻结) │
│ Encoder │ │ Cross-Attention│ │ GPT-style │
│ (CLIP-like) │ │ (可训练) │ │ │
└──────────────┘ └──────────────┘ └──────────────┘
- 视觉 encoder 提 feature
- Q-Former 把图像 feature → text-like tokens
- LLM 处理”图像 token + 文本”
核心 idea:视觉是另一种 token。
3.3 第 3 阶段:LLaVA 家族(2023-)
LLaVA(Microsoft 2023-04)开源 VLM 鼻祖:
- 简化:视觉 encoder + linear projection + LLaMA
- 训练数据:COCO + GPT-4 生成的 instruction(visual instruction tuning)
- 完全开源,被广泛 fork
后续:LLaVA-1.5(2024-01)、LLaVA-1.6 / Next、LLaVA-OneVision(2024-08)。
3.4 第 4 阶段:商业大爆发(2023-2024)
| 时间 | 模型 | 突破 |
|---|---|---|
| 2023-09 | GPT-4V | 商用 VLM 起点 |
| 2024-03 | Claude 3 vision | 高质量 OCR / 文档 |
| 2024-05 | GPT-4o ⭐ | 多模态原生 + 音频 |
| 2024-08 | Qwen2-VL | 开源 SOTA |
| 2024-12 | Qwen2.5-VL ⭐ | 32/72B 性能赶上闭源 |
| 2025-Q3 | Gemini 2.5 Pro | 1M 上下文 |
| 2026 | Qwen3-VL / GPT-5 vision | 持续推进 |
3.5 第 5 阶段:Native 多模态(2024-)
GPT-4o 是分水岭——不再是”视觉 encoder + 文本 LLM”两段式,而是单模型原生处理多模态:
- 同一 transformer 接受 image / audio / text token
- 输出 image / audio / text token
- 训练数据天然多模态混合
意义:从”翻译式”到”原生式” ——延迟和质量都跃升。
四、VLA(Vision-Language-Action)与 GUI Agent
VLM 是”看 + 说”,VLA = 看 + 说 + 动:
VLM:
输入 图 + 文
输出 文
应用 视觉问答、文档理解
VLA:
输入 图 + 文
输出 文 + Action(click(x,y)/type/drag/...)
应用 GUI Agent(模块九 Computer Use)、机器人
4.1 VLA 代表
- Anthropic Computer Use(2024-10)— 最早商用 VLA
- UI-TARS(2025-01,arXiv 2501.12326)— 开源 VLA SOTA
- ShowUI / OmniParser / SeeClick(GUI 专项)
- OpenVLA / RT-2 / π0(机器人)
4.2 与模块九的关系
模块九(Computer Use)的视觉 grounding 章节就是讨论 VLA。本章作为总览给一个全貌,深入留给模块九。
五、与”传统 CV”的本质区别
很多人会问:“我用 ResNet + YOLO 不行吗?”——Multi-Modal LLM 与传统 CV 是两套范式:
| 维度 | 传统 CV | Multi-Modal LLM |
|---|---|---|
| 任务定义 | 固定(分类/检测/分割) | 自由(自然语言指令) |
| 训练 | 任务专项 | 通用预训练 + 指令微调 |
| 推理能力 | 单步 | 多步链式推理 ⭐ |
| 输出 | 类别/框/掩膜 | 任意自然语言 |
| 泛化 | 域内强 / 跨域弱 | 跨域强 ⭐ |
| 部署 | 轻量(MB-100MB) | 重(GB-TB) |
| 适用场景 | 实时、固定任务 | 长尾、灵活、需推理 |
5.1 用 ResNet 做”发票数字提取”
1. 训一个 OCR 模型(detect text region + recognize)
2. 训一个 layout 模型(label number/price/date)
3. 写规则把 layout 输出拼成 JSON
↓ 总耗时数月,需大量标注
5.2 用 GPT-4o 做”发票数字提取”
1. 给 GPT-4o 一张发票图 + prompt:"提取金额/日期/商家名"
2. 输出 JSON
↓ 总耗时 1 天,几乎不需标注
Multi-Modal LLM 把视觉任务”语言化” ——你不再需要为每个新任务专训模型。
六、应用场景全景
| 场景 | 典型模型 | 模态 | 难度 |
|---|---|---|---|
| 图像 VQA / 描述 | 任何 VLM | 视觉 | ★ |
| OCR / 文档智能 | Qwen2.5-VL / GPT-4o | 视觉 | ★★ |
| 图表理解 | Claude / GPT-4o | 视觉 | ★★ |
| 数学题图(含公式) | Claude Opus 4.5 / o3 | 视觉 + 推理 | ★★★ |
| UI 理解 / 操作 | UI-TARS / Anthropic CU | 视觉 + Action | ★★★★ |
| 视频摘要 | Gemini 2.5 / Qwen2.5-VL video | 视频 | ★★★ |
| 视频问答 | Gemini 2.5 / Qwen2.5-Omni | 视频 | ★★★ |
| 语音问答 | GPT-4o Realtime | 音频 | ★★ |
| 流式视频对话 | Gemini Live | 视频 + 音频 | ★★★★ |
| 医疗影像 | 专项 fine-tune VLM | 视觉 | ★★★★ |
| 自动驾驶 | VLA(NVIDIA / Wayve 等) | 视频 + Action | ★★★★★ |
| 机器人控制 | RT-2 / OpenVLA / π0 | 视觉 + Action | ★★★★★ |
七、为什么 2024-2026 突然爆发
7.1 Native 训练数据规模
CLIP 时代用 4 亿图文对——已是惊人;GPT-4o / Gemini 用万亿级多模态数据。规模 + 质量双跃升。
7.2 长上下文革命
从 4K → 128K → 1M tokens——1M 上下文 = 1h 视频 = 1000 张图。视频/长文档处理瞬间可行。
7.3 商业模型质量平民化
GPT-4o vision、Gemini 2.5 Pro 通过 API 可调,0.05 / 张图 ——用得起才是引爆点。
7.4 开源 VLM 追平
Qwen2.5-VL 72B 在多数 VLM benchmark 上逼近 GPT-4o ——开源生态有了支点,创业公司纷纷自家部署。
7.5 Realtime API 范式
GPT-4o Realtime(2024-10)开创流式音频对话——延迟从 5s+(Whisper + GPT + TTS 串联)降到 200ms。手机/智能音箱/远程客服全行业更新。
✅ 自我检验清单
- 能说出 LLM 从单模态到多模态的 5 步演进里程碑
- 能区分 Multi-Modal Agent 三层栈(感知 / 转换 / 推理)
- 能解释 CLIP / Q-Former / Native 多模态三种架构演进
- 能区分 VLM(看)与 VLA(看 + 动)
- 能解释为什么 GPT-4o 比 GPT-4V 进步大(Native vs 翻译式)
- 能说出 Multi-Modal LLM 与传统 CV 的 5 个核心区别
- 能列出 2024-2026 多模态爆发的 5 大推手
📚 参考资料
关键论文
- CLIP (arXiv 2103.00020) — VLM 起点
- Flamingo (arXiv 2204.14198) — Q-Former 思想
- BLIP-2 (arXiv 2301.12597)
- LLaVA (arXiv 2304.08485) — 开源 VLM 鼻祖 ⭐
- LLaVA-1.5 (arXiv 2310.03744)
- LLaVA-OneVision (arXiv 2408.03326)
- Qwen2.5-VL (arXiv 2502.13923) ⭐
关键模型卡 / blog
- GPT-4V (OpenAI 2023)
- GPT-4o (OpenAI 2024-05) ⭐
- Claude vision (Anthropic 2024)
- Gemini 2.5 (Google 2025)
- Qwen2.5-VL Github
综述
- “A Survey on Multimodal Large Language Models” (arXiv 2306.13549)
- “Multimodal Foundation Models” (Li et al. 2023)
下一章:第2章 视觉理解 Agent —— GPT-4o / Claude / Gemini 闭源 + Qwen2.5-VL / InternVL3 / LLaVA-OV / MiniCPM-V 开源全景对比。