Multi-Modal Agents 学习路线

多模态(Multi-Modal) 让 agent 看到、听到、看视频——这一章讲怎么从纯文本世界跨到视觉 + 视频 + 音频的世界。2024-2026 是多模态范式确立期:GPT-4o(2024-05)/ Gemini 2.x / Claude vision 三巨头各扛一面,Qwen2.5-VL / InternVL3 / LLaVA-OneVision 把开源 VLM 推到可用产品级,Whisper / Realtime API 让语音对话成为新交互范式。

📑 目录

一、什么是 Multi-Modal Agent
二、5 章导览
三、三大子方向时间线
四、与前 10 模块的关系
五、未来趋势(2026-2027)
六、推荐阅读路径

Multi-Modal Agent = LLM Agent + 视觉 / 视频 / 音频处理能力。能力栈分 3 层:

┌────────────────────────────────────────────────────┐
│  Tier 3 多模态推理      看图推理、视频问答、语音对话    │
│         (VLM 把图当 token,与文字混合推理)              │
├────────────────────────────────────────────────────┤
│  Tier 2 跨模态转换       OCR、ASR、TTS、图像生成        │
│         (从一种模态翻到另一种)                          │
├────────────────────────────────────────────────────┤
│  Tier 1 单模态感知       图像分类、目标检测、语音识别    │
│         (传统 CV/NLP/Speech)                            │
└────────────────────────────────────────────────────┘

模块十一专注 Tier 2 + Tier 3 —— 用一个统一 LLM 处理多模态。

二、5 章导览

章	主题	核心内容
0	学习路线	本文
1	多模态 Agent 是什么 🎨	范式跃迁、3 层栈、VLM/VLA 历史、应用场景
2	视觉理解 Agent 👁️	闭源(GPT-4o/Claude/Gemini)+ 开源(Qwen2.5-VL/InternVL3/LLaVA-OV)
3	视频与音频 Agent 🎬🎤	视频 LLM(Video-LLaVA/Gemini 2.5)+ 音频(Whisper/Realtime)
4	多模态 Agent 评测 📏	MMMU/MathVista/MMBench/Video-MME/VoiceBench
5	端到端实战 ⭐	发票 OCR + 视频摘要 + 语音 bot 三场景

三、三大子方向时间线

3.1 视觉(VLM)

2021-01  CLIP(OpenAI)            ── 文本-图像对比学习
2022-04  Flamingo(DeepMind)       ── 第一代真正多模态 LLM
2023-01  BLIP-2                   ── Q-Former 桥接
2023-04  LLaVA(Microsoft)         ── 开源 VLM 鼻祖
2023-09  GPT-4V                   ── 商用 VLM 起点
2024-01  LLaVA-1.5 / 1.6
2024-03  Claude 3 vision
2024-05  GPT-4o ⭐                 ── 多模态原生
2024-08  Qwen2-VL(7/72B)
2024-10  Llama 3.2-Vision
2024-12  Qwen2.5-VL(7/32/72B) ⭐  ── 开源 SOTA
2025-Q1  InternVL3
2025-Q3  Gemini 2.5 Pro vision
2025-Q4  Claude 4 vision
2026-Q1  Qwen3-VL(开源 SOTA)
2026-Q2  GPT-5 vision / 多模态

3.2 视频

2023-12  Video-LLaVA              ── 早期视频理解
2024-03  Gemini 1.5 Pro 1M        ── 1h 视频原生支持
2024-06  Qwen2-VL video           ── 开源
2024-08  Video-LLaMA / VideoChat2
2024-10  GPT-4o video preview
2025-Q1  Gemini 2 video           ── 流式视频
2025-Q4  Qwen2.5-VL video         ── 32B/72B 视频 SOTA
2026-Q1  Qwen3-VL video           ──多帧推理

3.3 音频

2022-09  Whisper(OpenAI)          ── ASR 鼻祖,30+ 语言
2023-09  Whisper Large v3
2024-05  GPT-4o Voice             ──多模态原生
2024-09  Qwen2-Audio
2024-10  GPT-4o Realtime API ⭐   ──流式音频对话
2024-12  Voxtral(Mistral)
2025-Q1  Gemini 2 Live ⭐         ──流式视音频
2025-Q3  Qwen2.5-Omni             ──全模态 7B
2026-Q1  Anthropic Realtime
2026-Q2  GPT-5 Realtime / Audio

四、与前 10 模块的关系

模块二 CUDA           ─┐
模块三 分布式训练     ─┼─ 训练栈(VLM 训练复用这些)
模块四 推理优化       ─┘   特别是 vLLM 已支持多模态推理

模块五 Agent Memory   ─→ 多模态记忆(图片 / 视频 chunk 索引)
模块六 Agent Runtime  ─→ Agent 编排(VLM 通常是其中一个 tool)
模块七 Agentic RL     ─→ VLM 也可以 RL 训练(VLA / GUI Agent)
模块八 Agent Eval     ─→ MMMU 等多模态 benchmark 是 eval 一部分
模块九 Computer Use   ─→ ⭐ Computer Use 必须懂视觉 grounding
模块十 Code Agents    ─→ SWE-bench Multimodal(视觉补丁)

模块十一 Multi-Modal   = 把"视觉 + 视频 + 音频"当作 agent 的标准能力