跳到主要内容
Multi-Modal

Multi-Modal Agents 学习路线

模块十一 Multi-Modal Agents 全景导览 — 5 章导览、VLM/视频/音频三大子方向时间线、与前 10 模块的关系、未来趋势

learning-path multi-modal vlm vla video-llm audio-llm gpt-4o gemini qwen-vl

Multi-Modal Agents 学习路线 🗺️

多模态(Multi-Modal) 让 agent 看到、听到、看视频——这一章讲怎么从纯文本世界跨到视觉 + 视频 + 音频的世界。2024-2026 是多模态范式确立期:GPT-4o(2024-05)/ Gemini 2.x / Claude vision 三巨头各扛一面,Qwen2.5-VL / InternVL3 / LLaVA-OneVision 把开源 VLM 推到可用产品级,Whisper / Realtime API 让语音对话成为新交互范式。

📑 目录


一、什么是 Multi-Modal Agent

Multi-Modal Agent = LLM Agent + 视觉 / 视频 / 音频处理能力。能力栈分 3 层:

┌────────────────────────────────────────────────────┐
│  Tier 3 多模态推理      看图推理、视频问答、语音对话    │
│         (VLM 把图当 token,与文字混合推理)              │
├────────────────────────────────────────────────────┤
│  Tier 2 跨模态转换       OCR、ASR、TTS、图像生成        │
│         (从一种模态翻到另一种)                          │
├────────────────────────────────────────────────────┤
│  Tier 1 单模态感知       图像分类、目标检测、语音识别    │
│         (传统 CV/NLP/Speech)                            │
└────────────────────────────────────────────────────┘

模块十一专注 Tier 2 + Tier 3 —— 用一个统一 LLM 处理多模态。


二、5 章导览

主题核心内容
0学习路线本文
1多模态 Agent 是什么 🎨范式跃迁、3 层栈、VLM/VLA 历史、应用场景
2视觉理解 Agent 👁️闭源(GPT-4o/Claude/Gemini)+ 开源(Qwen2.5-VL/InternVL3/LLaVA-OV)
3视频与音频 Agent 🎬🎤视频 LLM(Video-LLaVA/Gemini 2.5)+ 音频(Whisper/Realtime)
4多模态 Agent 评测 📏MMMU/MathVista/MMBench/Video-MME/VoiceBench
5端到端实战发票 OCR + 视频摘要 + 语音 bot 三场景

三、三大子方向时间线

3.1 视觉(VLM)

2021-01  CLIP(OpenAI)            ── 文本-图像对比学习
2022-04  Flamingo(DeepMind)       ── 第一代真正多模态 LLM
2023-01  BLIP-2                   ── Q-Former 桥接
2023-04  LLaVA(Microsoft)         ── 开源 VLM 鼻祖
2023-09  GPT-4V                   ── 商用 VLM 起点
2024-01  LLaVA-1.5 / 1.6
2024-03  Claude 3 vision
2024-05  GPT-4o ⭐                 ── 多模态原生
2024-08  Qwen2-VL(7/72B)
2024-10  Llama 3.2-Vision
2024-12  Qwen2.5-VL(7/32/72B) ⭐  ── 开源 SOTA
2025-Q1  InternVL3
2025-Q3  Gemini 2.5 Pro vision
2025-Q4  Claude 4 vision
2026-Q1  Qwen3-VL(开源 SOTA)
2026-Q2  GPT-5 vision / 多模态

3.2 视频

2023-12  Video-LLaVA              ── 早期视频理解
2024-03  Gemini 1.5 Pro 1M        ── 1h 视频原生支持
2024-06  Qwen2-VL video           ── 开源
2024-08  Video-LLaMA / VideoChat2
2024-10  GPT-4o video preview
2025-Q1  Gemini 2 video           ── 流式视频
2025-Q4  Qwen2.5-VL video         ── 32B/72B 视频 SOTA
2026-Q1  Qwen3-VL video           ──多帧推理

3.3 音频

2022-09  Whisper(OpenAI)          ── ASR 鼻祖,30+ 语言
2023-09  Whisper Large v3
2024-05  GPT-4o Voice             ──多模态原生
2024-09  Qwen2-Audio
2024-10  GPT-4o Realtime API ⭐   ──流式音频对话
2024-12  Voxtral(Mistral)
2025-Q1  Gemini 2 Live ⭐         ──流式视音频
2025-Q3  Qwen2.5-Omni             ──全模态 7B
2026-Q1  Anthropic Realtime
2026-Q2  GPT-5 Realtime / Audio

四、与前 10 模块的关系

模块二 CUDA           ─┐
模块三 分布式训练     ─┼─ 训练栈(VLM 训练复用这些)
模块四 推理优化       ─┘   特别是 vLLM 已支持多模态推理

模块五 Agent Memory   ─→ 多模态记忆(图片 / 视频 chunk 索引)
模块六 Agent Runtime  ─→ Agent 编排(VLM 通常是其中一个 tool)
模块七 Agentic RL     ─→ VLM 也可以 RL 训练(VLA / GUI Agent)
模块八 Agent Eval     ─→ MMMU 等多模态 benchmark 是 eval 一部分
模块九 Computer Use   ─→ ⭐ Computer Use 必须懂视觉 grounding
模块十 Code Agents    ─→ SWE-bench Multimodal(视觉补丁)

模块十一 Multi-Modal   = 把"视觉 + 视频 + 音频"当作 agent 的标准能力

特别强调:

  • 模块九(Computer Use)是 multi-modal 的应用 ——agent 看屏幕操作 GUI
  • 模块六(Runtime)的 tool calling 体系直接用——VLM 就是另一种 tool

五、未来趋势(2026-2027)

5.1 全模态(Omni)统一

GPT-4o / Gemini Omni / Qwen2.5-Omni 已经在做——单模型同时支持文本 + 视觉 + 音频 + 视频输入输出。预计 2027 成为标配。

5.2 长视觉上下文

从单图 → 多图 → 1h 视频 → 24h 视频(自动驾驶、监控)。Gemini 2.5 Pro 已支持 1M token = 约 1h 视频。

5.3 流式实时交互

GPT-4o Realtime / Gemini Live 开创——亚秒级延迟、流式音频/视觉。这是手机助手 / 实时翻译 / 远程会议 bot 的基础。

5.4 边缘部署

MiniCPM-V / Phi-3.5 Vision / Qwen2.5-VL 3B —— 手机/Edge 设备运行 VLM。隐私敏感场景(医疗、法律)关键。

5.5 VLA / Robotics

VLM 加上 action head → Vision-Language-Action(VLA),控制机器人。Open-X / RT-2 / OpenVLA / π0 都在卷。Robotics + Multi-Modal 是 2026-2030 大方向。


六、推荐阅读路径

路径 A — 想 集成多模态 LLM 到产品(2 周)

  1. 第1章 多模态 Agent 是什么
  2. 第2章 视觉理解 Agent → 选一个 VLM 跑通
  3. 第5章 端到端实战 → 发票 OCR / 视频摘要

路径 B — 想 训练自家 VLM(4 周)

  1. 第1-3章 全部
  2. 精读 Qwen2.5-VL / InternVL3 技术报告
  3. 用 LLaVA-OneVision / Qwen2.5-VL 代码 fine-tune

路径 C — 想 做多模态评测 / 研究(2 个月)

  1. 全部 1-5 章
  2. 第4章 评测细致研究 + 各 benchmark 跑
  3. 关注最新 paper(MMMU、Video-MME、VoiceBench 持续更新)

✅ 自我检验清单

  • 能区分 multi-modal 的 3 层栈(单模态感知 / 跨模态转换 / 多模态推理)
  • 能背出当前 VLM 头部 5 家(GPT-4o/Claude/Gemini/Qwen2.5-VL/InternVL3)
  • 能解释 Realtime API 的范式与传统 ASR+TTS 的区别
  • 能说出 MMMU / MathVista / Video-MME / VoiceBench 各自定位
  • 能区分 VLM(看)与 VLA(看 + 动)

📚 参考资料

论文综述

  • “Multimodal Foundation Models” (Li et al. 2023)
  • “A Survey on Multimodal Large Language Models” (arXiv 2306.13549)

关键模型卡 / 技术报告

  • GPT-4o (OpenAI 2024-05)
  • Gemini 2.5 (Google 2025)
  • Claude 4 vision (Anthropic 2026)
  • Qwen2.5-VL (arXiv 2502.13923) ⭐
  • InternVL3 (Shanghai AI Lab)
  • LLaVA-OneVision (arXiv 2408.03326)
  • Whisper (arXiv 2212.04356)

Benchmark 主页

官方 API 文档