Multi-Modal Agents 学习路线
模块十一 Multi-Modal Agents 全景导览 — 5 章导览、VLM/视频/音频三大子方向时间线、与前 10 模块的关系、未来趋势
Multi-Modal Agents 学习路线 🗺️
多模态(Multi-Modal) 让 agent 看到、听到、看视频——这一章讲怎么从纯文本世界跨到视觉 + 视频 + 音频的世界。2024-2026 是多模态范式确立期:GPT-4o(2024-05)/ Gemini 2.x / Claude vision 三巨头各扛一面,Qwen2.5-VL / InternVL3 / LLaVA-OneVision 把开源 VLM 推到可用产品级,Whisper / Realtime API 让语音对话成为新交互范式。
📑 目录
一、什么是 Multi-Modal Agent
Multi-Modal Agent = LLM Agent + 视觉 / 视频 / 音频处理能力。能力栈分 3 层:
┌────────────────────────────────────────────────────┐
│ Tier 3 多模态推理 看图推理、视频问答、语音对话 │
│ (VLM 把图当 token,与文字混合推理) │
├────────────────────────────────────────────────────┤
│ Tier 2 跨模态转换 OCR、ASR、TTS、图像生成 │
│ (从一种模态翻到另一种) │
├────────────────────────────────────────────────────┤
│ Tier 1 单模态感知 图像分类、目标检测、语音识别 │
│ (传统 CV/NLP/Speech) │
└────────────────────────────────────────────────────┘
模块十一专注 Tier 2 + Tier 3 —— 用一个统一 LLM 处理多模态。
二、5 章导览
| 章 | 主题 | 核心内容 |
|---|---|---|
| 0 | 学习路线 | 本文 |
| 1 | 多模态 Agent 是什么 🎨 | 范式跃迁、3 层栈、VLM/VLA 历史、应用场景 |
| 2 | 视觉理解 Agent 👁️ | 闭源(GPT-4o/Claude/Gemini)+ 开源(Qwen2.5-VL/InternVL3/LLaVA-OV) |
| 3 | 视频与音频 Agent 🎬🎤 | 视频 LLM(Video-LLaVA/Gemini 2.5)+ 音频(Whisper/Realtime) |
| 4 | 多模态 Agent 评测 📏 | MMMU/MathVista/MMBench/Video-MME/VoiceBench |
| 5 | 端到端实战 ⭐ | 发票 OCR + 视频摘要 + 语音 bot 三场景 |
三、三大子方向时间线
3.1 视觉(VLM)
2021-01 CLIP(OpenAI) ── 文本-图像对比学习
2022-04 Flamingo(DeepMind) ── 第一代真正多模态 LLM
2023-01 BLIP-2 ── Q-Former 桥接
2023-04 LLaVA(Microsoft) ── 开源 VLM 鼻祖
2023-09 GPT-4V ── 商用 VLM 起点
2024-01 LLaVA-1.5 / 1.6
2024-03 Claude 3 vision
2024-05 GPT-4o ⭐ ── 多模态原生
2024-08 Qwen2-VL(7/72B)
2024-10 Llama 3.2-Vision
2024-12 Qwen2.5-VL(7/32/72B) ⭐ ── 开源 SOTA
2025-Q1 InternVL3
2025-Q3 Gemini 2.5 Pro vision
2025-Q4 Claude 4 vision
2026-Q1 Qwen3-VL(开源 SOTA)
2026-Q2 GPT-5 vision / 多模态
3.2 视频
2023-12 Video-LLaVA ── 早期视频理解
2024-03 Gemini 1.5 Pro 1M ── 1h 视频原生支持
2024-06 Qwen2-VL video ── 开源
2024-08 Video-LLaMA / VideoChat2
2024-10 GPT-4o video preview
2025-Q1 Gemini 2 video ── 流式视频
2025-Q4 Qwen2.5-VL video ── 32B/72B 视频 SOTA
2026-Q1 Qwen3-VL video ──多帧推理
3.3 音频
2022-09 Whisper(OpenAI) ── ASR 鼻祖,30+ 语言
2023-09 Whisper Large v3
2024-05 GPT-4o Voice ──多模态原生
2024-09 Qwen2-Audio
2024-10 GPT-4o Realtime API ⭐ ──流式音频对话
2024-12 Voxtral(Mistral)
2025-Q1 Gemini 2 Live ⭐ ──流式视音频
2025-Q3 Qwen2.5-Omni ──全模态 7B
2026-Q1 Anthropic Realtime
2026-Q2 GPT-5 Realtime / Audio
四、与前 10 模块的关系
模块二 CUDA ─┐
模块三 分布式训练 ─┼─ 训练栈(VLM 训练复用这些)
模块四 推理优化 ─┘ 特别是 vLLM 已支持多模态推理
模块五 Agent Memory ─→ 多模态记忆(图片 / 视频 chunk 索引)
模块六 Agent Runtime ─→ Agent 编排(VLM 通常是其中一个 tool)
模块七 Agentic RL ─→ VLM 也可以 RL 训练(VLA / GUI Agent)
模块八 Agent Eval ─→ MMMU 等多模态 benchmark 是 eval 一部分
模块九 Computer Use ─→ ⭐ Computer Use 必须懂视觉 grounding
模块十 Code Agents ─→ SWE-bench Multimodal(视觉补丁)
模块十一 Multi-Modal = 把"视觉 + 视频 + 音频"当作 agent 的标准能力
特别强调:
- 模块九(Computer Use)是 multi-modal 的应用 ——agent 看屏幕操作 GUI
- 模块六(Runtime)的 tool calling 体系直接用——VLM 就是另一种 tool
五、未来趋势(2026-2027)
5.1 全模态(Omni)统一
GPT-4o / Gemini Omni / Qwen2.5-Omni 已经在做——单模型同时支持文本 + 视觉 + 音频 + 视频输入输出。预计 2027 成为标配。
5.2 长视觉上下文
从单图 → 多图 → 1h 视频 → 24h 视频(自动驾驶、监控)。Gemini 2.5 Pro 已支持 1M token = 约 1h 视频。
5.3 流式实时交互
GPT-4o Realtime / Gemini Live 开创——亚秒级延迟、流式音频/视觉。这是手机助手 / 实时翻译 / 远程会议 bot 的基础。
5.4 边缘部署
MiniCPM-V / Phi-3.5 Vision / Qwen2.5-VL 3B —— 手机/Edge 设备运行 VLM。隐私敏感场景(医疗、法律)关键。
5.5 VLA / Robotics
VLM 加上 action head → Vision-Language-Action(VLA),控制机器人。Open-X / RT-2 / OpenVLA / π0 都在卷。Robotics + Multi-Modal 是 2026-2030 大方向。
六、推荐阅读路径
路径 A — 想 集成多模态 LLM 到产品(2 周)
- 第1章 多模态 Agent 是什么
- 第2章 视觉理解 Agent → 选一个 VLM 跑通
- 第5章 端到端实战 → 发票 OCR / 视频摘要
路径 B — 想 训练自家 VLM(4 周)
- 第1-3章 全部
- 精读 Qwen2.5-VL / InternVL3 技术报告
- 用 LLaVA-OneVision / Qwen2.5-VL 代码 fine-tune
路径 C — 想 做多模态评测 / 研究(2 个月)
- 全部 1-5 章
- 第4章 评测细致研究 + 各 benchmark 跑
- 关注最新 paper(MMMU、Video-MME、VoiceBench 持续更新)
✅ 自我检验清单
- 能区分 multi-modal 的 3 层栈(单模态感知 / 跨模态转换 / 多模态推理)
- 能背出当前 VLM 头部 5 家(GPT-4o/Claude/Gemini/Qwen2.5-VL/InternVL3)
- 能解释 Realtime API 的范式与传统 ASR+TTS 的区别
- 能说出 MMMU / MathVista / Video-MME / VoiceBench 各自定位
- 能区分 VLM(看)与 VLA(看 + 动)
📚 参考资料
论文综述
- “Multimodal Foundation Models” (Li et al. 2023)
- “A Survey on Multimodal Large Language Models” (arXiv 2306.13549)
关键模型卡 / 技术报告
- GPT-4o (OpenAI 2024-05)
- Gemini 2.5 (Google 2025)
- Claude 4 vision (Anthropic 2026)
- Qwen2.5-VL (arXiv 2502.13923) ⭐
- InternVL3 (Shanghai AI Lab)
- LLaVA-OneVision (arXiv 2408.03326)
- Whisper (arXiv 2212.04356)
Benchmark 主页
- MMMU — https://mmmu-benchmark.github.io
- MathVista — https://mathvista.github.io
- Video-MME — https://video-mme.github.io
- VoiceBench — 主流 paper 中
官方 API 文档
- OpenAI Realtime API — https://platform.openai.com/docs/api-reference/realtime
- Google Gemini API — https://ai.google.dev
- Anthropic Vision — https://docs.claude.com
- Qwen API / Github
- InternVL Github