第2章 视觉理解 Agent
VLM 全景 — GPT-4o/Claude/Gemini 闭源 SOTA + Qwen2.5-VL/InternVL3/LLaVA-OneVision/MiniCPM-V 开源 SOTA、架构对比、anyres/native res、token compression、应用场景
第2章 👁️ 视觉理解 Agent
一句话:Qwen2.5-VL 是 2026 开源 VLM 事实标杆,GPT-4o + Claude + Gemini 三家瓜分闭源 VLM 头部,各有侧重(GPT-4o 多模态原生、Claude OCR/文档强、Gemini 长视觉上下文)。本章给你完整 VLM 选型矩阵 + 架构基础 + 部署建议。
📑 目录
- 一、VLM 全景图
- 二、闭源 VLM 三巨头
- 三、Qwen2.5-VL ⭐(开源 SOTA)
- 四、InternVL3
- 五、LLaVA-OneVision 与 LLaVA 家族
- 六、MiniCPM-V(端侧)
- 七、其他 VLM
- 八、架构核心:从 anyres 到 native res
- 九、Token Compression
- 十、应用场景与选型决策树
一、VLM 全景图
闭源(API 用) 开源(自部署)
┌──────────────────────────┐ ┌──────────────────────────┐
通用 │ GPT-4o │ │ Qwen2.5-VL ⭐(7/32/72B) │
│ Claude 4 Sonnet vision │ │ InternVL3 │
│ Gemini 2.5 Pro vision │ │ LLaVA-OneVision │
│ │ │ Llama 3.2-Vision │
└──────────────────────────┘ └──────────────────────────┘
┌──────────────────────────┐ ┌──────────────────────────┐
端侧 │ Apple Foundation Models │ │ MiniCPM-V(8B) │
│ Gemini Nano │ │ Qwen2.5-VL 3B │
│ │ │ Phi-3.5-Vision │
└──────────────────────────┘ └──────────────────────────┘
┌──────────────────────────┐ ┌──────────────────────────┐
专项 │ (文档智能、医疗 etc.) │ │ Florence-2 / PaliGemma │
│ │ │ CogVLM / DeepSeek-VL2 │
└──────────────────────────┘ └──────────────────────────┘
二、闭源 VLM 三巨头
2.1 GPT-4o(OpenAI 2024-05)⭐
定位:多模态原生标杆。
优势:
- Native 多模态架构——视觉 + 音频 + 文本同一模型
- Realtime API(2024-10):流式音频对话
- 综合性能强(MMMU 75%+)
局限:
- OCR 在长文档上不如 Claude(Anthropic 在文档上下了大功夫)
- 中文场景比 Qwen 弱
典型用法:
import openai
client = openai.OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "user", "content": [
{"type": "text", "text": "这张图里有什么?"},
{"type": "image_url", "image_url": {"url": image_url}}
]}
]
)
Pricing(2026):
- 输入:0.005/张图
- 输出:$10/M token
2.2 Claude 4 Sonnet vision(Anthropic)
定位:文档/OCR 标杆。
优势:
- Long-form OCR / Document QA 业内最强
- Chart understanding 出色
- 多图理解(单次 100 张图)
- 数学公式识别强(Claude Opus 配 o3 分庭抗礼)
局限:
- 无 Realtime API(2026-Q1 才推 Realtime,生态尚浅)
- 价格略贵
典型用法:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=2048,
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": img_b64}},
{"type": "text", "text": "提取所有金额和日期"}
]
}]
)
2.3 Gemini 2.5 Pro vision(Google)
定位:长视觉上下文标杆(1M token = 1h 视频 = 1000 张图)。
优势:
- 超长上下文 ——可读完整本 PDF / 整段视频
- 视频理解原生(Gemini 2.5 把视频当一等公民)
- 价格便宜(Flash 系列特别)
局限:
- 单图细节不如 GPT-4o / Claude
- 中文理解略弱
典型用法:
import google.generativeai as genai
model = genai.GenerativeModel('gemini-2.5-pro')
response = model.generate_content([
"看这段视频,总结关键点",
{"mime_type": "video/mp4", "data": video_bytes}
])
2.4 三家对比
| 维度 | GPT-4o | Claude 4 Sonnet | Gemini 2.5 Pro |
|---|---|---|---|
| MMMU | 75% | 73% | 70% |
| DocVQA | 92% | 96% ⭐ | 91% |
| ChartQA | 86% | 88% | 84% |
| Video-MME | 71% | 65% | 78% ⭐ |
| OCR(长文档) | 中 | 强 ⭐ | 中 |
| 推理(数学图) | 强 | 强 | 中 |
| 上下文 | 128K | 200K | 1M ⭐ |
| Realtime | ✅ ⭐ | beta | ✅ Live |
| 单图价 | $0.005 | $0.005 | $0.001 |
业界共识:
- 多模态原生交互 → GPT-4o
- 文档/OCR 重场景 → Claude
- 长视频 / 多图分析 → Gemini
三、Qwen2.5-VL ⭐(开源 SOTA)
Github:https://github.com/QwenLM/Qwen2.5-VL 论文:arXiv 2502.13923,阿里通义 2024-12 起。
规模:
- Qwen2.5-VL 3B ── 端侧
- Qwen2.5-VL 7B ── 服务器轻量
- Qwen2.5-VL 32B ── 服务器主力 ⭐
- Qwen2.5-VL 72B ── 旗舰
3.1 关键特性
- Native Resolution:不固定 input size,接受任意分辨率(从 224 到 4K)
- 多帧视频 / 长视频:支持帧率自适应
- OCR 极强 ——专门优化中英文 OCR / 表格 / 公式
- GUI / VLA 能力:可做 Computer Use(模块九)
- Apache 2.0 license ——商用友好
3.2 性能(选关键 benchmark)
| Benchmark | Qwen2.5-VL-72B | GPT-4o | Claude 4 |
|---|---|---|---|
| MMMU | 70% | 75% | 73% |
| DocVQA | 97% ⭐ | 92% | 96% |
| ChartQA | 88% | 86% | 88% |
| OCRBench | 90% | 85% | 88% |
| Video-MME | 73% | 71% | 65% |
| MathVista | 75% | 73% | 72% |
几乎全面追平闭源 SOTA,部分指标(DocVQA / OCRBench)反超。
3.3 部署
# 用 vLLM 部署(推荐)
pip install vllm
vllm serve Qwen/Qwen2.5-VL-32B-Instruct \
--tensor-parallel-size 4 \
--max-model-len 32768
# OpenAI 兼容 API
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen2.5-VL-32B-Instruct",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "看图说话"},
{"type": "image_url", "image_url": {"url": "https://..."}}
]
}]
}'
硬件要求:
- 7B:1×A100/H100
- 32B:2×A100 / 1×H100
- 72B:4×A100 / 2×H100
3.4 业界采用
- DigitalOcean / Hyperbolic / Together / SiliconFlow 等云已上线
- 国内 BAT、字节、商汤等大厂:做内部部署的首选
- 大量 RAG / 文档 AI 创业公司直接用 Qwen2.5-VL
四、InternVL3
Github:https://github.com/OpenGVLab/InternVL 机构:上海 AI Lab + 商汤等。
4.1 特点
- 开源 SOTA 之一,与 Qwen2.5-VL 双雄
- 规模:1B / 8B / 14B / 38B / 78B
- 强在 chart / OCR / general
- 训练数据:LAION 等大规模 + 自家高质量
4.2 与 Qwen2.5-VL 的差异
| 维度 | Qwen2.5-VL | InternVL3 |
|---|---|---|
| 主力规模 | 7/32/72B | 8/14/38/78B |
| Native res | ✅ | ✅ |
| 中文 | 极强 | 强 |
| 视频 | 强 | 中 |
| 推理 | 强 | 更强(InternVL3-78B 在 MMMU 略胜) |
| 生态 | 极广(阿里推) | 学术圈广 |
实战推荐:中文 / OCR / 视频偏好 Qwen2.5-VL,纯学术评测追 SOTA 看 InternVL3。
五、LLaVA-OneVision 与 LLaVA 家族
项目:https://github.com/LLaVA-VL/LLaVA-NeXT
LLaVA 家族是开源 VLM 的祖师爷,2023 年初由 Microsoft 开源,催生整个开源 VLM 生态。
5.1 LLaVA-OneVision(2024-08)
- 单模型支持 single image / multi image / video 三场景
- 7B / 72B 规模
- LLaMA-3 / Qwen 基座
- 学术使用极广(2025-2026 大量 paper baseline)
5.2 与 Qwen2.5-VL 比
LLaVA-OV 在主要 benchmark 上比 Qwen2.5-VL 略低 5-10%,但架构更开(一切训练代码 + 数据公开),是研究复现首选。
使用建议:
- 直接用产品 → Qwen2.5-VL / InternVL3
- 做研究 → LLaVA-OneVision(可改、可改训练 recipe)
六、MiniCPM-V(端侧)
Github:https://github.com/OpenBMB/MiniCPM-o
特点:面壁智能做的端侧 VLM,专为手机/边缘设备设计。
- MiniCPM-V 2.6:8B,可在手机推理(经 INT4 量化)
- MiniCPM-o 2.6:全模态 8B(文本 + 视觉 + 音频)
- 部分 benchmark 超过 GPT-4V
6.1 端侧场景
- 手机隐私场景(医疗 OCR、个人助手)
- 离线场景(无网络)
- 实时性要求(本地秒级响应)
6.2 部署
# 量化版本可在 8GB 显存设备运行
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(
'openbmb/MiniCPM-V-2_6-int4',
trust_remote_code=True
)
七、其他 VLM
| 模型 | 机构 | 特色 |
|---|---|---|
| CogVLM / CogVLM2 | 智谱 | 中文 / 国内场景 |
| DeepSeek-VL2 | DeepSeek | MoE 架构 |
| Llama 3.2-Vision | Meta | 11B / 90B,Llama 生态 |
| Florence-2 | Microsoft | 专项 grounding,小模型 |
| PaliGemma | 3B 小模型 | |
| Pixtral(Mistral) | Mistral | 12B 多语言 |
| Idefics 系列 | HuggingFace | 学术研究 |
| Phi-3.5-Vision | Microsoft | 4B 端侧 |
八、架构核心:从 anyres 到 native res
8.1 旧范式:固定 image size
早期 VLM(LLaVA 1.0):图像 resize 到 336×336 → encoder 处理。问题:
- 高分辨率图(发票、海报)细节丢失
- 不同长宽比强制 resize,几何失真
8.2 anyres(2024 主流)
LLaVA 1.6 / GPT-4V 等用:
- 图像切成 patch 网格(如 4×4 = 16 个 sub-image)
- 每个 sub-image 用 encoder 处理
- 拼接 token
优势:支持高分辨率;劣势:token 数爆炸(16 张 sub-image × 576 token = 9216 token / 张原图)。
8.3 native resolution(2025 起)
Qwen2.5-VL / InternVL3 用:
- 接受任意分辨率,不切 patch
- 图像 patch embed 后直接进 transformer
- 用相对位置编码处理变长
优势:
- 不丢失细节
- token 数线性增长(高分辨率 token 多,低分辨率 token 少)
- 架构更优雅
九、Token Compression
VLM 的 token 数容易爆炸——一张高清图可能 1000+ token。Token compression 是热点研究:
| 技术 | 思路 |
|---|---|
| Adaptive pooling | 根据复杂度池化 patch |
| Q-Former | 把 N 个 patch token 压成 K(K << N) |
| TextHawk / DocCompression | 文档专项 token 压缩 |
| Native 高效 ViT | SigLIP / DynamicViT 等高效 encoder |
| Sparse attention | 视觉 token 稀疏注意力 |
实战:Qwen2.5-VL 在 native res 下,1024×1024 图约 256 token(ViT-L/16 patch),比 anyres 风格少 5-10×。
十、应用场景与选型决策树
Q1: 你的场景是?
│
├── 文档智能 / OCR
│ ├── 闭源 + 高质量 → Claude 4
│ ├── 闭源 + 低延迟 → GPT-4o
│ ├── 开源中文场景 → Qwen2.5-VL ⭐
│ └── 端侧 → MiniCPM-V
│
├── 视频理解
│ ├── 长视频(1h+) → Gemini 2.5 Pro ⭐
│ ├── 开源短视频 → Qwen2.5-VL video
│ └── 流式 → Gemini Live
│
├── 图表 / 数据可视化
│ ├── 闭源 → Claude 4
│ └── 开源 → Qwen2.5-VL / InternVL3
│
├── 数学题(含公式 + 图)
│ ├── 闭源 → Claude Opus 4.5 / o3
│ └── 开源 → Qwen2.5-VL-72B
│
├── UI / GUI 操作(VLA)
│ ├── 闭源 → Anthropic Computer Use(模块九)
│ └── 开源 → UI-TARS / Qwen2.5-VL
│
└── 多模态对话(含语音)
├── 闭源 → GPT-4o Realtime / Gemini Live
└── 开源 → Qwen2.5-Omni
✅ 自我检验清单
- 能说出闭源 VLM 三家(GPT-4o / Claude / Gemini)各自定位
- 能背出 Qwen2.5-VL 4 个规模 + 关键 benchmark 数字
- 能区分 InternVL3 / LLaVA-OneVision / Qwen2.5-VL 的差异
- 能解释 anyres → native res 的演进及优势
- 能解释为什么需要 token compression
- 能根据”OCR / 视频 / 图表 / 端侧”4 个场景给出选型推荐
📚 参考资料
论文
- Qwen2.5-VL (arXiv 2502.13923) ⭐
- InternVL3 (技术报告)
- LLaVA-OneVision (arXiv 2408.03326)
- LLaVA-1.5 (arXiv 2310.03744)
- MiniCPM-V (技术报告)
- CogVLM (arXiv 2311.03079)
- Florence-2 (arXiv 2311.06242)
官方
- Qwen2.5-VL — https://github.com/QwenLM/Qwen2.5-VL
- InternVL3 — https://github.com/OpenGVLab/InternVL
- LLaVA-NeXT — https://github.com/LLaVA-VL/LLaVA-NeXT
- MiniCPM-V — https://github.com/OpenBMB/MiniCPM-o
API 文档
- OpenAI Vision — https://platform.openai.com/docs/guides/vision
- Anthropic Vision — https://docs.claude.com/en/docs/build-with-claude/vision
- Google Gemini API — https://ai.google.dev
下一章:第3章 视频与音频 Agent —— Video-LLaVA / Gemini 2.5 video / Whisper / GPT-4o Realtime / Gemini Live 全景。