🎨 Multi-Modal 6 篇文章 · 5 个章节
模块十一:Multi-Modal Agents
Agent 看图、看视频、听语音 ——VLM(Qwen2.5-VL/InternVL3/LLaVA-OneVision/GPT-4o/Gemini 2.5/Claude vision)、视频与音频 agent(Whisper/Voxtral/GPT-4o Realtime/Gemini Live)、5 大多模态 benchmark(MMMU/MathVista/MMBench/Video-MME/VoiceBench),以及发票 OCR + 视频摘要 + 语音 bot 端到端实战。
开始学习章节目录
从纯文本 Agent 到 Multi-Modal Agent 的范式跃迁、3 层栈、VLM/VLA 历史脉络、与传统 CV 的本质区别、应用场景全景
VLM 全景 — GPT-4o/Claude/Gemini 闭源 SOTA + Qwen2.5-VL/InternVL3/LLaVA-OneVision/MiniCPM-V 开源 SOTA、架构对比、anyres/native res、token compression、应用场景
视频 LLM(Video-LLaVA/Gemini 2.5/Qwen2.5-VL video)+ 音频(Whisper/Voxtral/GPT-4o Realtime/Gemini Live)全景对比、流式 API 范式、应用场景
MMMU/MathVista/MMBench/MME/DocVQA/ChartQA/Video-MME/VoiceBench 等 5+ 多模态 benchmark 全景、SOTA 数据、VLM hallucination、幻觉防御
完整可跑案例,整合 Qwen2.5-VL + Whisper + GPT-4o Realtime,实现 3 场景:发票/合同 OCR + 结构化、会议视频摘要、语音视觉对话 bot,Cost/延迟/准确度三方案对比
学习建议
前置要求
推理优化(模块四)+ Agent Runtime(模块六)+ 一定的 CV 基础(知道什么是 token)
- Qwen2.5-VL(7/32/72B)是开源 VLM 当前 SOTA,日常实践首选
- GPT-4o Realtime / Gemini Live 是流式音频+视觉对话的范式开创者
- 多模态 benchmark 主战场:MMMU 综合 + MathVista 推理 + Video-MME 视频