🎨 Multi-Modal 6 篇文章 · 5 个章节

模块十一：Multi-Modal Agents

Agent 看图、看视频、听语音 ——VLM(Qwen2.5-VL/InternVL3/LLaVA-OneVision/GPT-4o/Gemini 2.5/Claude vision)、视频与音频 agent(Whisper/Voxtral/GPT-4o Realtime/Gemini Live)、5 大多模态 benchmark(MMMU/MathVista/MMBench/Video-MME/VoiceBench),以及发票 OCR + 视频摘要 + 语音 bot 端到端实战。

开始学习

章节目录

Multi-Modal Agents 学习路线

1 第1章多模态 Agent 是什么

从纯文本 Agent 到 Multi-Modal Agent 的范式跃迁、3 层栈、VLM/VLA 历史脉络、与传统 CV 的本质区别、应用场景全景

2 第2章视觉理解 Agent

VLM 全景 — GPT-4o/Claude/Gemini 闭源 SOTA + Qwen2.5-VL/InternVL3/LLaVA-OneVision/MiniCPM-V 开源 SOTA、架构对比、anyres/native res、token compression、应用场景

3 第3章视频与音频 Agent

视频 LLM(Video-LLaVA/Gemini 2.5/Qwen2.5-VL video)+ 音频(Whisper/Voxtral/GPT-4o Realtime/Gemini Live)全景对比、流式 API 范式、应用场景

4 第4章多模态 Agent 评测

MMMU/MathVista/MMBench/MME/DocVQA/ChartQA/Video-MME/VoiceBench 等 5+ 多模态 benchmark 全景、SOTA 数据、VLM hallucination、幻觉防御

5 第5章端到端实战 — 企业多模态助手(发票 OCR + 视频摘要 + 语音 bot)

完整可跑案例,整合 Qwen2.5-VL + Whisper + GPT-4o Realtime,实现 3 场景:发票/合同 OCR + 结构化、会议视频摘要、语音视觉对话 bot,Cost/延迟/准确度三方案对比

学习建议

前置要求

推理优化（模块四）+ Agent Runtime（模块六）+ 一定的 CV 基础(知道什么是 token)

Qwen2.5-VL(7/32/72B)是开源 VLM 当前 SOTA,日常实践首选
GPT-4o Realtime / Gemini Live 是流式音频+视觉对话的范式开创者
多模态 benchmark 主战场:MMMU 综合 + MathVista 推理 + Video-MME 视频

模块十一：Multi-Modal Agents

章节目录

学习建议

前置要求

搜索