Qwen2.5-VL 是阿里巴巴推出的新一代视觉-语言模型,相比上一代 Qwen2-VL 有了显著升级,支持图像、文本、视频理解,并具备更强的代理决策能力 。主要特点包括:
-
核心能力:擅长识别常见对象、分析图像中的文本、图表、图标和布局,支持超长视频(超1小时)理解,可精准定位视频片段以捕捉事件 。
-
结构化输出:支持对发票、表格、图表等数据进行结构化输出,适用于金融、商业等领域 。
-
模型架构优化:采用动态分辨率训练、动态帧率采样以及优化的 ViT 架构(含 SwiGLU 和 RMSNorm),提升训练和推理速度 。
-
性能表现:Qwen2.5-VL-72B 在文档/图表理解、视频分析等任务中表现领先,超越 Gemini-2 Flash、GPT-4o 等模型;较小模型(如 Qwen2.5-VL-7B)也优于同类模型 。
-
使用方式:可通过 Hugging Face Transformers 或 API 访问,支持边缘设备运行 。
模型提供不同规模版本(如 3B、7B、32B、72B),满足不同计算资源需求 。
Qwen2.5-VL-3B 的硬件需求
-
最低显存:FP32 精度需 11.5 GB,BF16 需 5.75 GB,INT8 需 2.87 GB,INT4 需 1.44 GB(实际使用中显存通常需 1.2 倍以上) 。
-
推荐配置:在单卡 NVIDIA V100(16 GB 显存)或 T4(16 GB 显存)及以上显卡上可运行训练任务 。
-
实际部署:在本地部署时,可在 RTX 3050 Ti(4 GB 显存)等设备上运行(需适当调整像素范围以平衡性能和显存占用),或选择 8 GB 显存的笔记本电脑 。
总体而言,Qwen2.5-VL-3B 适合在显存 8 GB 及以上的 GPU 上运行,具体需求可根据量化精度(如 INT8/INT4)进一步优化 。
3B模型4bit推理的示例代码
安装依赖:
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
pip install transformers accelerate bitsandbytes qwen-vl-utils modelscope
下面示例代码展示如何用 4-bit 量化(BitsAndBytes NF4) 在本地 GPU 上加载并推理 Qwen2.5-VL-3B-Instruct。
import os
import torch
f