Qwen2.5-VL-3B模型4bit推理

Qwen2.5-VL 是阿里巴巴推出的新一代视觉-语言模型,相比上一代 Qwen2-VL 有了显著升级,支持图像、文本、视频理解,并具备更强的代理决策能力 。主要特点包括:

  • 核心能力:擅长识别常见对象、分析图像中的文本、图表、图标和布局,支持超长视频(超1小时)理解,可精准定位视频片段以捕捉事件 。

  • 结构化输出:支持对发票、表格、图表等数据进行结构化输出,适用于金融、商业等领域 。

  • 模型架构优化:采用动态分辨率训练、动态帧率采样以及优化的 ViT 架构(含 SwiGLU 和 RMSNorm),提升训练和推理速度 。

  • 性能表现:Qwen2.5-VL-72B 在文档/图表理解、视频分析等任务中表现领先,超越 Gemini-2 Flash、GPT-4o 等模型;较小模型(如 Qwen2.5-VL-7B)也优于同类模型 。

  • 使用方式:可通过 Hugging Face Transformers 或 API 访问,支持边缘设备运行 。

模型提供不同规模版本(如 3B、7B、32B、72B),满足不同计算资源需求 。

Qwen2.5-VL-3B 的硬件需求

  • 最低显存:FP32 精度需 11.5 GB,BF16 需 5.75 GB,INT8 需 2.87 GB,INT4 需 1.44 GB(实际使用中显存通常需 1.2 倍以上) 。

  • 推荐配置:在单卡 NVIDIA V100(16 GB 显存)或 T4(16 GB 显存)及以上显卡上可运行训练任务 。

  • 实际部署:在本地部署时,可在 RTX 3050 Ti(4 GB 显存)等设备上运行(需适当调整像素范围以平衡性能和显存占用),或选择 8 GB 显存的笔记本电脑 。

总体而言,Qwen2.5-VL-3B 适合在显存 8 GB 及以上的 GPU 上运行,具体需求可根据量化精度(如 INT8/INT4)进一步优化 。

3B模型4bit推理的示例代码

安装依赖:

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
pip install transformers accelerate bitsandbytes qwen-vl-utils modelscope

下面示例代码展示如何用 4-bit 量化(BitsAndBytes NF4) 在本地 GPU 上加载并推理 Qwen2.5-VL-3B-Instruct。

import os
import torch
f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值