跳到主要内容
Multi-Modal

第1章 多模态 Agent 是什么

从纯文本 Agent 到 Multi-Modal Agent 的范式跃迁、3 层栈、VLM/VLA 历史脉络、与传统 CV 的本质区别、应用场景全景

multi-modal vlm vla paradigm-shift gpt-4o gemini qwen-vl

第1章 🎨 多模态 Agent 是什么

一句话:文本 LLM 让 agent 会读会写;Multi-Modal Agent 让 agent 还能看图看视频听语音说话 ——把 agent 从”键盘前的工种”推进到”人类感官等价的工种”。这一章讲清楚为什么 2024-2026 多模态突然爆发,以及它和”传统 CV”到底差在哪。

📑 目录


一、范式跃迁:从单模态到多模态

短短 5 年,LLM 从纯文本走向全模态:

2020  GPT-3                 ── 纯文本
2022  ChatGPT               ── 纯文本对话
2023  GPT-4V                ── 加视觉
2024  GPT-4o ⭐              ── 视觉 + 音频原生
2025  Gemini Live            ── 流式视音频
2026  GPT-5 / Claude Omni   ── 全模态、流式、长上下文

每一步都在把 agent 的”感官”扩展。

1.1 单模态时代(GPT-3 到 ChatGPT)

  • 输入:文本
  • 输出:文本
  • 限制:只能”读用户输入的字”

1.2 视觉加入(GPT-4V,2023-09)

第一次让 LLM 看图说话:

  • 输入:文本 + 图像
  • 输出:文本
  • 应用:看图答题、UI 描述、医疗影像 QA

1.3 多模态原生(GPT-4o,2024-05)⭐

不再是”vision encoder 接 LLM”,而是单一模型原生支持多模态:

  • 输入:文本 / 图像 / 音频(streaming)
  • 输出:文本 / 图像生成 / 音频(streaming)
  • Realtime API(2024-10)开创流式对话范式

1.4 全模态 + 流式(2025-2026)

  • Gemini Live(2025):屏幕共享 + 视音频
  • Qwen2.5-Omni(2025):7B 全模态开源
  • GPT-5(2026 预期):全模态原生

二、Multi-Modal Agent 三层栈

按 agent 处理多模态的”深度”,今天的多模态 agent 分 3 层:

┌─────────────────────────────────────────────────────┐
│  Tier 3 多模态推理(Vision-Language Reasoning)        │
│   GPT-4o / Claude vision / Qwen2.5-VL                │
│   把图像当 token,与文字混合做长链推理               │
├─────────────────────────────────────────────────────┤
│  Tier 2 跨模态转换(Cross-Modal)                      │
│   OCR / ASR(Whisper)/ TTS(tts-1)                  │
│   单方向:图 → 文 / 音 → 文 / 文 → 音                │
├─────────────────────────────────────────────────────┤
│  Tier 1 单模态感知(Single-Modal Perception)          │
│   ResNet / YOLO / DeepSpeech                         │
│   传统 CV / NLP / Speech                             │
└─────────────────────────────────────────────────────┘
例子模型规模推理能力
Tier 1物体检测10M-100M单步
Tier 2OCR / ASR100M-1B转换
Tier 3VLM 推理7B-1T长链 ⭐

本模块专注 Tier 3 + 部分 Tier 2 ——把多模态作为 agent 推理输入。


三、VLM 历史脉络(2021-2026)

3.1 第 1 阶段:对比学习时代(2021-2022)

CLIP(OpenAI 2021)是奠基:

  • 4 亿图文对训练
  • 文本 encoder + 图像 encoder,对比损失
  • 不能”生成文本”,只能匹配

意义:证明大规模图文对比学习能学出强 representation,后续所有 VLM 都用 CLIP-like encoder 起步。

3.2 第 2 阶段:Q-Former 桥接(2022-2023)

Flamingo(DeepMind 2022)/ BLIP-2(2023)代表:

┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│ Vision       │  → │  Q-Former /   │  → │  LLM(冻结)   │
│ Encoder      │    │ Cross-Attention│    │  GPT-style    │
│ (CLIP-like)  │    │ (可训练)      │    │              │
└──────────────┘     └──────────────┘     └──────────────┘
  • 视觉 encoder 提 feature
  • Q-Former 把图像 feature → text-like tokens
  • LLM 处理”图像 token + 文本”

核心 idea:视觉是另一种 token

3.3 第 3 阶段:LLaVA 家族(2023-)

LLaVA(Microsoft 2023-04)开源 VLM 鼻祖:

  • 简化:视觉 encoder + linear projection + LLaMA
  • 训练数据:COCO + GPT-4 生成的 instruction(visual instruction tuning)
  • 完全开源,被广泛 fork

后续:LLaVA-1.5(2024-01)、LLaVA-1.6 / Next、LLaVA-OneVision(2024-08)。

3.4 第 4 阶段:商业大爆发(2023-2024)

时间模型突破
2023-09GPT-4V商用 VLM 起点
2024-03Claude 3 vision高质量 OCR / 文档
2024-05GPT-4o多模态原生 + 音频
2024-08Qwen2-VL开源 SOTA
2024-12Qwen2.5-VL32/72B 性能赶上闭源
2025-Q3Gemini 2.5 Pro1M 上下文
2026Qwen3-VL / GPT-5 vision持续推进

3.5 第 5 阶段:Native 多模态(2024-)

GPT-4o 是分水岭——不再是”视觉 encoder + 文本 LLM”两段式,而是单模型原生处理多模态:

  • 同一 transformer 接受 image / audio / text token
  • 输出 image / audio / text token
  • 训练数据天然多模态混合

意义:从”翻译式”到”原生式” ——延迟和质量都跃升。


四、VLA(Vision-Language-Action)与 GUI Agent

VLM 是”看 + 说”,VLA = 看 + 说 + 动:

VLM:
  输入  图 + 文
  输出  文
  应用  视觉问答、文档理解

VLA:
  输入  图 + 文
  输出  文 + Action(click(x,y)/type/drag/...)
  应用  GUI Agent(模块九 Computer Use)、机器人

4.1 VLA 代表

  • Anthropic Computer Use(2024-10)— 最早商用 VLA
  • UI-TARS(2025-01,arXiv 2501.12326)— 开源 VLA SOTA
  • ShowUI / OmniParser / SeeClick(GUI 专项)
  • OpenVLA / RT-2 / π0(机器人)

4.2 与模块九的关系

模块九(Computer Use)的视觉 grounding 章节就是讨论 VLA。本章作为总览给一个全貌,深入留给模块九。


五、与”传统 CV”的本质区别

很多人会问:“我用 ResNet + YOLO 不行吗?”——Multi-Modal LLM 与传统 CV 是两套范式:

维度传统 CVMulti-Modal LLM
任务定义固定(分类/检测/分割)自由(自然语言指令)
训练任务专项通用预训练 + 指令微调
推理能力单步多步链式推理 ⭐
输出类别/框/掩膜任意自然语言
泛化域内强 / 跨域弱跨域强 ⭐
部署轻量(MB-100MB)重(GB-TB)
适用场景实时、固定任务长尾、灵活、需推理

5.1 用 ResNet 做”发票数字提取”

1. 训一个 OCR 模型(detect text region + recognize)
2. 训一个 layout 模型(label number/price/date)
3. 写规则把 layout 输出拼成 JSON
   ↓ 总耗时数月,需大量标注

5.2 用 GPT-4o 做”发票数字提取”

1. 给 GPT-4o 一张发票图 + prompt:"提取金额/日期/商家名"
2. 输出 JSON
   ↓ 总耗时 1 天,几乎不需标注

Multi-Modal LLM 把视觉任务”语言化” ——你不再需要为每个新任务专训模型。


六、应用场景全景

场景典型模型模态难度
图像 VQA / 描述任何 VLM视觉
OCR / 文档智能Qwen2.5-VL / GPT-4o视觉★★
图表理解Claude / GPT-4o视觉★★
数学题图(含公式)Claude Opus 4.5 / o3视觉 + 推理★★★
UI 理解 / 操作UI-TARS / Anthropic CU视觉 + Action★★★★
视频摘要Gemini 2.5 / Qwen2.5-VL video视频★★★
视频问答Gemini 2.5 / Qwen2.5-Omni视频★★★
语音问答GPT-4o Realtime音频★★
流式视频对话Gemini Live视频 + 音频★★★★
医疗影像专项 fine-tune VLM视觉★★★★
自动驾驶VLA(NVIDIA / Wayve 等)视频 + Action★★★★★
机器人控制RT-2 / OpenVLA / π0视觉 + Action★★★★★

七、为什么 2024-2026 突然爆发

7.1 Native 训练数据规模

CLIP 时代用 4 亿图文对——已是惊人;GPT-4o / Gemini 用万亿级多模态数据。规模 + 质量双跃升。

7.2 长上下文革命

从 4K → 128K → 1M tokens——1M 上下文 = 1h 视频 = 1000 张图。视频/长文档处理瞬间可行。

7.3 商业模型质量平民化

GPT-4o vision、Gemini 2.5 Pro 通过 API 可调,0.010.01-0.05 / 张图 ——用得起才是引爆点。

7.4 开源 VLM 追平

Qwen2.5-VL 72B 在多数 VLM benchmark 上逼近 GPT-4o ——开源生态有了支点,创业公司纷纷自家部署。

7.5 Realtime API 范式

GPT-4o Realtime(2024-10)开创流式音频对话——延迟从 5s+(Whisper + GPT + TTS 串联)降到 200ms。手机/智能音箱/远程客服全行业更新。


✅ 自我检验清单

  • 能说出 LLM 从单模态到多模态的 5 步演进里程碑
  • 能区分 Multi-Modal Agent 三层栈(感知 / 转换 / 推理)
  • 能解释 CLIP / Q-Former / Native 多模态三种架构演进
  • 能区分 VLM(看)与 VLA(看 + 动)
  • 能解释为什么 GPT-4o 比 GPT-4V 进步大(Native vs 翻译式)
  • 能说出 Multi-Modal LLM 与传统 CV 的 5 个核心区别
  • 能列出 2024-2026 多模态爆发的 5 大推手

📚 参考资料

关键论文

  • CLIP (arXiv 2103.00020) — VLM 起点
  • Flamingo (arXiv 2204.14198) — Q-Former 思想
  • BLIP-2 (arXiv 2301.12597)
  • LLaVA (arXiv 2304.08485) — 开源 VLM 鼻祖 ⭐
  • LLaVA-1.5 (arXiv 2310.03744)
  • LLaVA-OneVision (arXiv 2408.03326)
  • Qwen2.5-VL (arXiv 2502.13923) ⭐

关键模型卡 / blog

  • GPT-4V (OpenAI 2023)
  • GPT-4o (OpenAI 2024-05) ⭐
  • Claude vision (Anthropic 2024)
  • Gemini 2.5 (Google 2025)
  • Qwen2.5-VL Github

综述

  • “A Survey on Multimodal Large Language Models” (arXiv 2306.13549)
  • “Multimodal Foundation Models” (Li et al. 2023)

下一章:第2章 视觉理解 Agent —— GPT-4o / Claude / Gemini 闭源 + Qwen2.5-VL / InternVL3 / LLaVA-OV / MiniCPM-V 开源全景对比。