Qwen2.5-VL-3B模型4bit推理

原创

已于 2025-08-06 11:18:01 修改 · 1.3k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-08-06 00:37:15 首次发布

Qwen2.5-VL 是阿里巴巴推出的新一代视觉-语言模型，相比上一代 Qwen2-VL 有了显著升级，支持图像、文本、视频理解，并具备更强的代理决策能力。主要特点包括：

核心能力：擅长识别常见对象、分析图像中的文本、图表、图标和布局，支持超长视频（超1小时）理解，可精准定位视频片段以捕捉事件。
结构化输出：支持对发票、表格、图表等数据进行结构化输出，适用于金融、商业等领域。
模型架构优化：采用动态分辨率训练、动态帧率采样以及优化的 ViT 架构（含 SwiGLU 和 RMSNorm），提升训练和推理速度。
性能表现：Qwen2.5-VL-72B 在文档/图表理解、视频分析等任务中表现领先，超越 Gemini-2 Flash、GPT-4o 等模型；较小模型（如 Qwen2.5-VL-7B）也优于同类模型。
使用方式：可通过 Hugging Face Transformers 或 API 访问，支持边缘设备运行。

模型提供不同规模版本（如 3B、7B、32B、72B），满足不同计算资源需求。

Qwen2.5-VL-3B 的硬件需求

最低显存：FP32 精度需 11.5 GB，BF16 需 5.75 GB，INT8 需 2.87 GB，INT4 需 1.44 GB（实际使用中显存通常需 1.2 倍以上）。
推荐配置：在单卡 NVIDIA V100（16 GB 显存）或 T4（16 GB 显存）及以上显卡上可运行训练任务。
实际部署：在本地部署时，可在 RTX 3050 Ti（4 GB 显存）等设备上运行（需适当调整像素范围以平衡性能和显存占用），或选择 8 GB 显存的笔记本电脑。

总体而言，Qwen2.5-VL-3B 适合在显存 8 GB 及以上的 GPU 上运行，具体需求可根据量化精度（如 INT8/INT4）进一步优化。

3B模型4bit推理的示例代码

安装依赖：

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
pip install transformers accelerate bitsandbytes qwen-vl-utils modelscope

下面示例代码展示如何用 4-bit 量化（BitsAndBytes NF4）在本地 GPU 上加载并推理 Qwen2.5-VL-3B-Instruct。