跳到主要内容
Multi-Modal

第2章 视觉理解 Agent

VLM 全景 — GPT-4o/Claude/Gemini 闭源 SOTA + Qwen2.5-VL/InternVL3/LLaVA-OneVision/MiniCPM-V 开源 SOTA、架构对比、anyres/native res、token compression、应用场景

vlm qwen-vl internvl llava gpt-4o claude gemini ocr document

第2章 👁️ 视觉理解 Agent

一句话:Qwen2.5-VL 是 2026 开源 VLM 事实标杆,GPT-4o + Claude + Gemini 三家瓜分闭源 VLM 头部,各有侧重(GPT-4o 多模态原生、Claude OCR/文档强、Gemini 长视觉上下文)。本章给你完整 VLM 选型矩阵 + 架构基础 + 部署建议。

📑 目录


一、VLM 全景图

                  闭源(API 用)               开源(自部署)
       ┌──────────────────────────┐ ┌──────────────────────────┐
通用    │ GPT-4o                    │ │ Qwen2.5-VL ⭐(7/32/72B)  │
       │ Claude 4 Sonnet vision    │ │ InternVL3                 │
       │ Gemini 2.5 Pro vision     │ │ LLaVA-OneVision          │
       │                          │ │ Llama 3.2-Vision           │
       └──────────────────────────┘ └──────────────────────────┘
       ┌──────────────────────────┐ ┌──────────────────────────┐
端侧    │ Apple Foundation Models  │ │ MiniCPM-V(8B)            │
       │ Gemini Nano              │ │ Qwen2.5-VL 3B             │
       │                          │ │ Phi-3.5-Vision            │
       └──────────────────────────┘ └──────────────────────────┘
       ┌──────────────────────────┐ ┌──────────────────────────┐
专项    │ (文档智能、医疗 etc.)    │ │ Florence-2 / PaliGemma   │
       │                          │ │ CogVLM / DeepSeek-VL2     │
       └──────────────────────────┘ └──────────────────────────┘

二、闭源 VLM 三巨头

2.1 GPT-4o(OpenAI 2024-05)⭐

定位:多模态原生标杆。

优势:

  • Native 多模态架构——视觉 + 音频 + 文本同一模型
  • Realtime API(2024-10):流式音频对话
  • 综合性能强(MMMU 75%+)

局限:

  • OCR 在长文档上不如 Claude(Anthropic 在文档上下了大功夫)
  • 中文场景比 Qwen 弱

典型用法:

import openai

client = openai.OpenAI()
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user", "content": [
            {"type": "text", "text": "这张图里有什么?"},
            {"type": "image_url", "image_url": {"url": image_url}}
        ]}
    ]
)

Pricing(2026):

  • 输入:2.50/Mtoken+2.50/M token + 0.005/张图
  • 输出:$10/M token

2.2 Claude 4 Sonnet vision(Anthropic)

定位:文档/OCR 标杆。

优势:

  • Long-form OCR / Document QA 业内最强
  • Chart understanding 出色
  • 多图理解(单次 100 张图)
  • 数学公式识别强(Claude Opus 配 o3 分庭抗礼)

局限:

  • 无 Realtime API(2026-Q1 才推 Realtime,生态尚浅)
  • 价格略贵

典型用法:

import anthropic

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=2048,
    messages=[{
        "role": "user",
        "content": [
            {"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": img_b64}},
            {"type": "text", "text": "提取所有金额和日期"}
        ]
    }]
)

2.3 Gemini 2.5 Pro vision(Google)

定位:长视觉上下文标杆(1M token = 1h 视频 = 1000 张图)。

优势:

  • 超长上下文 ——可读完整本 PDF / 整段视频
  • 视频理解原生(Gemini 2.5 把视频当一等公民)
  • 价格便宜(Flash 系列特别)

局限:

  • 单图细节不如 GPT-4o / Claude
  • 中文理解略弱

典型用法:

import google.generativeai as genai

model = genai.GenerativeModel('gemini-2.5-pro')
response = model.generate_content([
    "看这段视频,总结关键点",
    {"mime_type": "video/mp4", "data": video_bytes}
])

2.4 三家对比

维度GPT-4oClaude 4 SonnetGemini 2.5 Pro
MMMU75%73%70%
DocVQA92%96%91%
ChartQA86%88%84%
Video-MME71%65%78%
OCR(长文档)
推理(数学图)
上下文128K200K1M
Realtime✅ ⭐beta✅ Live
单图价$0.005$0.005$0.001

业界共识:

  • 多模态原生交互 → GPT-4o
  • 文档/OCR 重场景 → Claude
  • 长视频 / 多图分析 → Gemini

三、Qwen2.5-VL ⭐(开源 SOTA)

Github:https://github.com/QwenLM/Qwen2.5-VL 论文:arXiv 2502.13923,阿里通义 2024-12 起。

规模:

  • Qwen2.5-VL 3B ── 端侧
  • Qwen2.5-VL 7B ── 服务器轻量
  • Qwen2.5-VL 32B ── 服务器主力 ⭐
  • Qwen2.5-VL 72B ── 旗舰

3.1 关键特性

  1. Native Resolution:不固定 input size,接受任意分辨率(从 224 到 4K)
  2. 多帧视频 / 长视频:支持帧率自适应
  3. OCR 极强 ——专门优化中英文 OCR / 表格 / 公式
  4. GUI / VLA 能力:可做 Computer Use(模块九)
  5. Apache 2.0 license ——商用友好

3.2 性能(选关键 benchmark)

BenchmarkQwen2.5-VL-72BGPT-4oClaude 4
MMMU70%75%73%
DocVQA97%92%96%
ChartQA88%86%88%
OCRBench90%85%88%
Video-MME73%71%65%
MathVista75%73%72%

几乎全面追平闭源 SOTA,部分指标(DocVQA / OCRBench)反超。

3.3 部署

# 用 vLLM 部署(推荐)
pip install vllm
vllm serve Qwen/Qwen2.5-VL-32B-Instruct \
    --tensor-parallel-size 4 \
    --max-model-len 32768

# OpenAI 兼容 API
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-VL-32B-Instruct",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "看图说话"},
        {"type": "image_url", "image_url": {"url": "https://..."}}
      ]
    }]
  }'

硬件要求:

  • 7B:1×A100/H100
  • 32B:2×A100 / 1×H100
  • 72B:4×A100 / 2×H100

3.4 业界采用

  • DigitalOcean / Hyperbolic / Together / SiliconFlow 等云已上线
  • 国内 BAT、字节、商汤等大厂:做内部部署的首选
  • 大量 RAG / 文档 AI 创业公司直接用 Qwen2.5-VL

四、InternVL3

Github:https://github.com/OpenGVLab/InternVL 机构:上海 AI Lab + 商汤等。

4.1 特点

  • 开源 SOTA 之一,与 Qwen2.5-VL 双雄
  • 规模:1B / 8B / 14B / 38B / 78B
  • 强在 chart / OCR / general
  • 训练数据:LAION 等大规模 + 自家高质量

4.2 与 Qwen2.5-VL 的差异

维度Qwen2.5-VLInternVL3
主力规模7/32/72B8/14/38/78B
Native res
中文极强
视频
推理更强(InternVL3-78B 在 MMMU 略胜)
生态极广(阿里推)学术圈广

实战推荐:中文 / OCR / 视频偏好 Qwen2.5-VL,纯学术评测追 SOTA 看 InternVL3。


五、LLaVA-OneVision 与 LLaVA 家族

项目:https://github.com/LLaVA-VL/LLaVA-NeXT

LLaVA 家族是开源 VLM 的祖师爷,2023 年初由 Microsoft 开源,催生整个开源 VLM 生态。

5.1 LLaVA-OneVision(2024-08)

  • 单模型支持 single image / multi image / video 三场景
  • 7B / 72B 规模
  • LLaMA-3 / Qwen 基座
  • 学术使用极广(2025-2026 大量 paper baseline)

5.2 与 Qwen2.5-VL 比

LLaVA-OV 在主要 benchmark 上比 Qwen2.5-VL 略低 5-10%,但架构更开(一切训练代码 + 数据公开),是研究复现首选。

使用建议:

  • 直接用产品 → Qwen2.5-VL / InternVL3
  • 做研究 → LLaVA-OneVision(可改、可改训练 recipe)

六、MiniCPM-V(端侧)

Github:https://github.com/OpenBMB/MiniCPM-o

特点:面壁智能做的端侧 VLM,专为手机/边缘设备设计。

  • MiniCPM-V 2.6:8B,可在手机推理(经 INT4 量化)
  • MiniCPM-o 2.6:全模态 8B(文本 + 视觉 + 音频)
  • 部分 benchmark 超过 GPT-4V

6.1 端侧场景

  • 手机隐私场景(医疗 OCR、个人助手)
  • 离线场景(无网络)
  • 实时性要求(本地秒级响应)

6.2 部署

# 量化版本可在 8GB 显存设备运行
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    'openbmb/MiniCPM-V-2_6-int4',
    trust_remote_code=True
)

七、其他 VLM

模型机构特色
CogVLM / CogVLM2智谱中文 / 国内场景
DeepSeek-VL2DeepSeekMoE 架构
Llama 3.2-VisionMeta11B / 90B,Llama 生态
Florence-2Microsoft专项 grounding,小模型
PaliGemmaGoogle3B 小模型
Pixtral(Mistral)Mistral12B 多语言
Idefics 系列HuggingFace学术研究
Phi-3.5-VisionMicrosoft4B 端侧

八、架构核心:从 anyres 到 native res

8.1 旧范式:固定 image size

早期 VLM(LLaVA 1.0):图像 resize 到 336×336 → encoder 处理。问题:

  • 高分辨率图(发票、海报)细节丢失
  • 不同长宽比强制 resize,几何失真

8.2 anyres(2024 主流)

LLaVA 1.6 / GPT-4V 等用:

  • 图像切成 patch 网格(如 4×4 = 16 个 sub-image)
  • 每个 sub-image 用 encoder 处理
  • 拼接 token

优势:支持高分辨率;劣势:token 数爆炸(16 张 sub-image × 576 token = 9216 token / 张原图)。

8.3 native resolution(2025 起)

Qwen2.5-VL / InternVL3 用:

  • 接受任意分辨率,不切 patch
  • 图像 patch embed 后直接进 transformer
  • 用相对位置编码处理变长

优势:

  • 不丢失细节
  • token 数线性增长(高分辨率 token 多,低分辨率 token 少)
  • 架构更优雅

九、Token Compression

VLM 的 token 数容易爆炸——一张高清图可能 1000+ token。Token compression 是热点研究:

技术思路
Adaptive pooling根据复杂度池化 patch
Q-Former把 N 个 patch token 压成 K(K << N)
TextHawk / DocCompression文档专项 token 压缩
Native 高效 ViTSigLIP / DynamicViT 等高效 encoder
Sparse attention视觉 token 稀疏注意力

实战:Qwen2.5-VL 在 native res 下,1024×1024 图约 256 token(ViT-L/16 patch),比 anyres 风格少 5-10×。


十、应用场景与选型决策树

       Q1: 你的场景是?

       ├── 文档智能 / OCR
       │   ├── 闭源 + 高质量 → Claude 4
       │   ├── 闭源 + 低延迟 → GPT-4o
       │   ├── 开源中文场景 → Qwen2.5-VL ⭐
       │   └── 端侧 → MiniCPM-V

       ├── 视频理解
       │   ├── 长视频(1h+) → Gemini 2.5 Pro ⭐
       │   ├── 开源短视频 → Qwen2.5-VL video
       │   └── 流式 → Gemini Live

       ├── 图表 / 数据可视化
       │   ├── 闭源 → Claude 4
       │   └── 开源 → Qwen2.5-VL / InternVL3

       ├── 数学题(含公式 + 图)
       │   ├── 闭源 → Claude Opus 4.5 / o3
       │   └── 开源 → Qwen2.5-VL-72B

       ├── UI / GUI 操作(VLA)
       │   ├── 闭源 → Anthropic Computer Use(模块九)
       │   └── 开源 → UI-TARS / Qwen2.5-VL

       └── 多模态对话(含语音)
           ├── 闭源 → GPT-4o Realtime / Gemini Live
           └── 开源 → Qwen2.5-Omni

✅ 自我检验清单

  • 能说出闭源 VLM 三家(GPT-4o / Claude / Gemini)各自定位
  • 能背出 Qwen2.5-VL 4 个规模 + 关键 benchmark 数字
  • 能区分 InternVL3 / LLaVA-OneVision / Qwen2.5-VL 的差异
  • 能解释 anyres → native res 的演进及优势
  • 能解释为什么需要 token compression
  • 能根据”OCR / 视频 / 图表 / 端侧”4 个场景给出选型推荐

📚 参考资料

论文

  • Qwen2.5-VL (arXiv 2502.13923) ⭐
  • InternVL3 (技术报告)
  • LLaVA-OneVision (arXiv 2408.03326)
  • LLaVA-1.5 (arXiv 2310.03744)
  • MiniCPM-V (技术报告)
  • CogVLM (arXiv 2311.03079)
  • Florence-2 (arXiv 2311.06242)

官方

API 文档

下一章:第3章 视频与音频 Agent —— Video-LLaVA / Gemini 2.5 video / Whisper / GPT-4o Realtime / Gemini Live 全景。