第2章 👁️ 视觉理解 Agent

一句话:Qwen2.5-VL 是 2026 开源 VLM 事实标杆,GPT-4o + Claude + Gemini 三家瓜分闭源 VLM 头部,各有侧重(GPT-4o 多模态原生、Claude OCR/文档强、Gemini 长视觉上下文)。本章给你完整 VLM 选型矩阵 + 架构基础 + 部署建议。

📑 目录

一、VLM 全景图
二、闭源 VLM 三巨头
三、Qwen2.5-VL ⭐(开源 SOTA)
四、InternVL3
五、LLaVA-OneVision 与 LLaVA 家族
六、MiniCPM-V(端侧)
七、其他 VLM
八、架构核心:从 anyres 到 native res
九、Token Compression
十、应用场景与选型决策树

一、VLM 全景图

                  闭源(API 用)               开源(自部署)
       ┌──────────────────────────┐ ┌──────────────────────────┐
通用    │ GPT-4o                    │ │ Qwen2.5-VL ⭐(7/32/72B)  │
       │ Claude 4 Sonnet vision    │ │ InternVL3                 │
       │ Gemini 2.5 Pro vision     │ │ LLaVA-OneVision          │
       │                          │ │ Llama 3.2-Vision           │
       └──────────────────────────┘ └──────────────────────────┘
       ┌──────────────────────────┐ ┌──────────────────────────┐
端侧    │ Apple Foundation Models  │ │ MiniCPM-V(8B)            │
       │ Gemini Nano              │ │ Qwen2.5-VL 3B             │
       │                          │ │ Phi-3.5-Vision            │
       └──────────────────────────┘ └──────────────────────────┘
       ┌──────────────────────────┐ ┌──────────────────────────┐
专项    │ (文档智能、医疗 etc.)    │ │ Florence-2 / PaliGemma   │
       │                          │ │ CogVLM / DeepSeek-VL2     │
       └──────────────────────────┘ └──────────────────────────┘

二、闭源 VLM 三巨头

2.1 GPT-4o(OpenAI 2024-05)⭐

定位:多模态原生标杆。

优势:

Native 多模态架构——视觉 + 音频 + 文本同一模型
Realtime API(2024-10):流式音频对话
综合性能强(MMMU 75%+)

局限:

OCR 在长文档上不如 Claude(Anthropic 在文档上下了大功夫)
中文场景比 Qwen 弱

典型用法:

import openai

client = openai.OpenAI()
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user", "content": [
            {"type": "text", "text": "这张图里有什么?"},
            {"type": "image_url", "image_url": {"url": image_url}}
        ]}
    ]
)

Pricing(2026):

输入: $2.50/M token +$ 0.005/张图
输出:$10/M token

2.2 Claude 4 Sonnet vision(Anthropic)

定位:文档/OCR 标杆。

优势:

Long-form OCR / Document QA 业内最强
Chart understanding 出色
多图理解(单次 100 张图)
数学公式识别强(Claude Opus 配 o3 分庭抗礼)

局限:

无 Realtime API(2026-Q1 才推 Realtime,生态尚浅)
价格略贵

典型用法:

import anthropic

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=2048,
    messages=[{
        "role": "user",
        "content": [
            {"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": img_b64}},
            {"type": "text", "text": "提取所有金额和日期"}
        ]
    }]
)

2.3 Gemini 2.5 Pro vision(Google)

定位:长视觉上下文标杆(1M token = 1h 视频 = 1000 张图)。

优势:

超长上下文 ——可读完整本 PDF / 整段视频
视频理解原生(Gemini 2.5 把视频当一等公民)
价格便宜(Flash 系列特别)

局限:

单图细节不如 GPT-4o / Claude
中文理解略弱

典型用法:

import google.generativeai as genai

model = genai.GenerativeModel('gemini-2.5-pro')
response = model.generate_content([
    "看这段视频,总结关键点",
    {"mime_type": "video/mp4", "data": video_bytes}
])

2.4 三家对比

维度	GPT-4o	Claude 4 Sonnet	Gemini 2.5 Pro
MMMU	75%	73%	70%
DocVQA	92%	96% ⭐	91%
ChartQA	86%	88%	84%
Video-MME	71%	65%	78% ⭐
OCR(长文档)	中	强 ⭐	中
推理(数学图)	强	强	中
上下文	128K	200K	1M ⭐
Realtime	✅ ⭐	beta	✅ Live
单图价	$0.005	$0.005	$0.001

业界共识:

多模态原生交互 → GPT-4o
文档/OCR 重场景 → Claude
长视频 / 多图分析 → Gemini

三、Qwen2.5-VL ⭐(开源 SOTA)

Github:https://github.com/QwenLM/Qwen2.5-VL 论文:arXiv 2502.13923,阿里通义 2024-12 起。

规模:

Qwen2.5-VL 3B ── 端侧
Qwen2.5-VL 7B ── 服务器轻量
Qwen2.5-VL 32B ── 服务器主力 ⭐
Qwen2.5-VL 72B ── 旗舰

3.1 关键特性

Native Resolution:不固定 input size,接受任意分辨率(从 224 到 4K)
多帧视频 / 长视频:支持帧率自适应
OCR 极强 ——专门优化中英文 OCR / 表格 / 公式
GUI / VLA 能力:可做 Computer Use(模块九)
Apache 2.0 license ——商用友好

3.2 性能(选关键 benchmark)

Benchmark	Qwen2.5-VL-72B	GPT-4o	Claude 4
MMMU	70%	75%	73%
DocVQA	97% ⭐	92%	96%
ChartQA	88%	86%	88%
OCRBench	90%	85%	88%
Video-MME	73%	71%	65%
MathVista	75%	73%	72%

几乎全面追平闭源 SOTA,部分指标(DocVQA / OCRBench)反超。

3.3 部署

# 用 vLLM 部署(推荐)
pip install vllm
vllm serve Qwen/Qwen2.5-VL-32B-Instruct \
    --tensor-parallel-size 4 \
    --max-model-len 32768

# OpenAI 兼容 API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-VL-32B-Instruct",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "看图说话"},
        {"type": "image_url", "image_url": {"url": "https://..."}}
      ]
    }]
  }'

硬件要求:

7B:1×A100/H100
32B:2×A100 / 1×H100
72B:4×A100 / 2×H100

3.4 业界采用

DigitalOcean / Hyperbolic / Together / SiliconFlow 等云已上线
国内 BAT、字节、商汤等大厂:做内部部署的首选
大量 RAG / 文档 AI 创业公司直接用 Qwen2.5-VL

四、InternVL3

Github:https://github.com/OpenGVLab/InternVL 机构:上海 AI Lab + 商汤等。

4.1 特点

开源 SOTA 之一,与 Qwen2.5-VL 双雄
规模:1B / 8B / 14B / 38B / 78B
强在 chart / OCR / general
训练数据:LAION 等大规模 + 自家高质量

4.2 与 Qwen2.5-VL 的差异

维度	Qwen2.5-VL	InternVL3
主力规模	7/32/72B	8/14/38/78B
Native res	✅	✅
中文	极强	强
视频	强	中
推理	强	更强(InternVL3-78B 在 MMMU 略胜)
生态	极广(阿里推)	学术圈广

实战推荐:中文 / OCR / 视频偏好 Qwen2.5-VL,纯学术评测追 SOTA 看 InternVL3。

五、LLaVA-OneVision 与 LLaVA 家族

项目:https://github.com/LLaVA-VL/LLaVA-NeXT

LLaVA 家族是开源 VLM 的祖师爷,2023 年初由 Microsoft 开源,催生整个开源 VLM 生态。

5.1 LLaVA-OneVision(2024-08)

单模型支持 single image / multi image / video 三场景
7B / 72B 规模
LLaMA-3 / Qwen 基座
学术使用极广(2025-2026 大量 paper baseline)

5.2 与 Qwen2.5-VL 比

LLaVA-OV 在主要 benchmark 上比 Qwen2.5-VL 略低 5-10%,但架构更开(一切训练代码 + 数据公开),是研究复现首选。

使用建议:

直接用产品 → Qwen2.5-VL / InternVL3

做研究 → LLaVA-OneVision(可改、可改训练 recipe)

六、MiniCPM-V(端侧)

Github:https://github.com/OpenBMB/MiniCPM-o

特点:面壁智能做的端侧 VLM,专为手机/边缘设备设计。

MiniCPM-V 2.6:8B,可在手机推理(经 INT4 量化)
MiniCPM-o 2.6:全模态 8B(文本 + 视觉 + 音频)
部分 benchmark 超过 GPT-4V

6.1 端侧场景

手机隐私场景(医疗 OCR、个人助手)
离线场景(无网络)
实时性要求(本地秒级响应)

6.2 部署

# 量化版本可在 8GB 显存设备运行
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    'openbmb/MiniCPM-V-2_6-int4',
    trust_remote_code=True
)

七、其他 VLM

模型	机构	特色
CogVLM / CogVLM2	智谱	中文 / 国内场景
DeepSeek-VL2	DeepSeek	MoE 架构
Llama 3.2-Vision	Meta	11B / 90B,Llama 生态
Florence-2	Microsoft	专项 grounding,小模型
PaliGemma	Google	3B 小模型
Pixtral(Mistral)	Mistral	12B 多语言
Idefics 系列	HuggingFace	学术研究
Phi-3.5-Vision	Microsoft	4B 端侧

八、架构核心:从 anyres 到 native res

8.1 旧范式:固定 image size

早期 VLM(LLaVA 1.0):图像 resize 到 336×336 → encoder 处理。问题:

高分辨率图(发票、海报)细节丢失
不同长宽比强制 resize,几何失真

8.2 anyres(2024 主流)

LLaVA 1.6 / GPT-4V 等用:

图像切成 patch 网格(如 4×4 = 16 个 sub-image)
每个 sub-image 用 encoder 处理
拼接 token

优势:支持高分辨率;劣势:token 数爆炸(16 张 sub-image × 576 token = 9216 token / 张原图)。

8.3 native resolution(2025 起)

Qwen2.5-VL / InternVL3 用:

接受任意分辨率,不切 patch
图像 patch embed 后直接进 transformer
用相对位置编码处理变长

优势:

不丢失细节
token 数线性增长(高分辨率 token 多,低分辨率 token 少)
架构更优雅

九、Token Compression

VLM 的 token 数容易爆炸——一张高清图可能 1000+ token。Token compression 是热点研究:

技术	思路
Adaptive pooling	根据复杂度池化 patch
Q-Former	把 N 个 patch token 压成 K(K << N)
TextHawk / DocCompression	文档专项 token 压缩
Native 高效 ViT	SigLIP / DynamicViT 等高效 encoder
Sparse attention	视觉 token 稀疏注意力

实战:Qwen2.5-VL 在 native res 下,1024×1024 图约 256 token(ViT-L/16 patch),比 anyres 风格少 5-10×。

十、应用场景与选型决策树

       Q1: 你的场景是?
       │
       ├── 文档智能 / OCR
       │   ├── 闭源 + 高质量 → Claude 4
       │   ├── 闭源 + 低延迟 → GPT-4o
       │   ├── 开源中文场景 → Qwen2.5-VL ⭐
       │   └── 端侧 → MiniCPM-V
       │
       ├── 视频理解
       │   ├── 长视频(1h+) → Gemini 2.5 Pro ⭐
       │   ├── 开源短视频 → Qwen2.5-VL video
       │   └── 流式 → Gemini Live
       │
       ├── 图表 / 数据可视化
       │   ├── 闭源 → Claude 4
       │   └── 开源 → Qwen2.5-VL / InternVL3
       │
       ├── 数学题(含公式 + 图)
       │   ├── 闭源 → Claude Opus 4.5 / o3
       │   └── 开源 → Qwen2.5-VL-72B
       │
       ├── UI / GUI 操作(VLA)
       │   ├── 闭源 → Anthropic Computer Use(模块九)
       │   └── 开源 → UI-TARS / Qwen2.5-VL
       │
       └── 多模态对话(含语音)
           ├── 闭源 → GPT-4o Realtime / Gemini Live
           └── 开源 → Qwen2.5-Omni

✅ 自我检验清单

能说出闭源 VLM 三家(GPT-4o / Claude / Gemini)各自定位
能背出 Qwen2.5-VL 4 个规模 + 关键 benchmark 数字
能区分 InternVL3 / LLaVA-OneVision / Qwen2.5-VL 的差异
能解释 anyres → native res 的演进及优势
能解释为什么需要 token compression
能根据”OCR / 视频 / 图表 / 端侧”4 个场景给出选型推荐

📚 参考资料

论文

Qwen2.5-VL (arXiv 2502.13923) ⭐
InternVL3 (技术报告)
LLaVA-OneVision (arXiv 2408.03326)
LLaVA-1.5 (arXiv 2310.03744)
MiniCPM-V (技术报告)
CogVLM (arXiv 2311.03079)
Florence-2 (arXiv 2311.06242)

官方

Qwen2.5-VL — https://github.com/QwenLM/Qwen2.5-VL
InternVL3 — https://github.com/OpenGVLab/InternVL
LLaVA-NeXT — https://github.com/LLaVA-VL/LLaVA-NeXT
MiniCPM-V — https://github.com/OpenBMB/MiniCPM-o

API 文档

OpenAI Vision — https://platform.openai.com/docs/guides/vision
Anthropic Vision — https://docs.claude.com/en/docs/build-with-claude/vision
Google Gemini API — https://ai.google.dev

下一章:第3章视频与音频 Agent —— Video-LLaVA / Gemini 2.5 video / Whisper / GPT-4o Realtime / Gemini Live 全景。

搜索