阿里多模态大模型Qwen2.5-VL-32B ,本地部署实践

最近春招和实习已开启了。

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

喜欢本文记得收藏、关注、点赞


在这里插入图片描述


大家好,通义千问又发布新模型了,依然很棒。

单说私有化部署,成本比 DeepSeek 低很多倍。私有化部署 DeepSeek- V3 或 R1,纯硬件成本保底 150 万(英伟达 H20 141GB 版),如果是国产算力,保底 200 万了。但是 QwQ:32B,只需要 4 张 4090 就行了(成本 10 几个 w),表现非常优异,很多场景可以替代 DeepSeek。

Qwen2.5-VL-32B 简介

模型架构Qwen2.5-VL-32B 介绍,我就不帮忙吹嘘了,阿里没有给我广告费

关键增强功能:

  • 通过视觉理解:Qwen2.5-VL 不仅擅长识别常见的花朵、鸟类、鱼类和昆虫,而且能够高效地分析图像中的文本、图表、图标、图形和布局。

  • 具有自主性:Qwen2.5-VL 直接扮演视觉代理的角色,能够进行推理并动态指导工具使用,具备计算机使用和手机使用的能力。

  • 理解长视频并捕捉事件:Qwen2.5-VL 能够理解时长超过 1 小时的视频,并且这次它新增了捕捉事件的能力,能够定位相关的视频片段。

  • Qwen2.5-VL 能够在不同格式下进行视觉定位:Qwen2.5-VL 可以通过生成边界框或点来准确地在图像中定位物体,并可以提供稳定的 JSON 输出以供坐标和属性使用。

  • 生成结构化输出:对于发票扫描件、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,有助于金融、商业等领使用。图片

图片

大家可以在 https://chat.qwen.ai/体验,在 Qwen Chat 上直接选中 Qwen2.5-VL-32B 即可。图片

本文我们主要介绍 Qwen2.5-VL-32B 本地化部署

下载模型

从 modelscope 下载,毕竟 huggingface 网不通。 模型文件:https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct/files

安装 modelscope:pip install modelscope

下载完整模型库:modelscope download --model Qwen/Qwen2.5-VL-32B-Instruct --local_dir /home/data-local/qwen25VL

将模型下载到指定的本地目录 /home/data-local/qwen25VL 中。

一共 65 个 G

图片

vLLM

安装 vllm:pip install vllm

运行大模型:

vllm serve /ModelPath/Qwen2.5-VL-32B-Instruct --port 8000  --host 0.0.0.0 --dtype bfloat16 --tensor-parallel-size 4 --limit-mm-per-prompt image=5,video=5 --max-model-len 16384

我只有 4 张 4090,--tensor-parallel-size 指定 4

如果安装官方建议的运行脚本,不断报 OOM,不断调低--max-model-len 这个参数才跑起来。

图片

使用

直接上 openweb-ui

安装:pip install open-webui

运行:open-webui serve

浏览器打开 http://locahost:8080

如果是服务器部署,把 localhost 改为服务器 ip

正常注册登陆

图片

右上角点击头像,点击管理员面板

点击设置 - 外部链接,照着抄一下,api key 随便填写

图片

然后回到前端,左上角添加模型那里就可以找到 Qwen2.5-VL-32B-Instruct

上传图片,随便问个问题,回答很精准图片
图片

速度也还行,卡不够的同学,可以等等量化版或 7B 版本。

<think>好的,用户现在想了解部署Qwen2.5-VL-32B-Instruct-AWQ模型的硬件要求,特别是显卡方面的需求。我需要先回顾一下之前的引用资料,看看有没有相关的信息。 根据引用[2],用户提到他们使用了一块48G的4090显卡,驱动版本是560.35.03,CUDA版本12.6.1。这说明至少需要一块显存较大的显卡。但用户可能想知道最低配置或推荐的配置。 Qwen2.5-VL-32B是一个32B参数的多模态大模型,AWQ版本可能进行了量化处理,减少了显存占用。通常模型参数和显存的关系大约是每参数需要2字节(16位浮点),所以32B参数大约需要64GB显存。但经过AWQ量化后,可能降低到4位或8位,这样显存需求会减少。比如,4位量化的话,32B参数可能需要大约16GB显存。但实际应用中还需要考虑激活值和中间结果,所以可能需要更大的显存。 引用[2]中用户用了单块4090 48G,这可能意味着即使量化后,模型还是需要较大的显存。而如果使用多块显卡,比如两块,通过模型并行可以分担显存压力。但需要确认模型是否支持分布式推理。 另外,用户可能需要知道其他硬件建议,比如CPU、内存、存储等。内存方面,通常建议是显存的2倍左右,所以如果显存用了48G,内存可能需要96GB以上。存储方面,模型文件大小可能需要几十GB,需要足够的硬盘空间。 还需要考虑推理框架,比如vLLM是否支持AWQ量化,以及其对硬件的优化情况。引用[2]提到了使用vLLM和docker部署,这可能对驱动版本和CUDA有特定要求,比如CUDA 12.1以上。 综合来看,显卡方面至少需要显存足够的GPU,比如4090 24G可能不够,而A100 40G或4090 48G可能更合适。如果显存不足,可能需要多卡。同时,内存、CPU和存储也需要相应配置。 最后,要确保引用的资料正确,比如引用[2]中的配置是否适用,以及是否需要其他依赖项。可能需要建议用户查看官方文档或GitHub仓库获取更详细的硬件要求。</think>### Qwen2.5-VL-32B-Instruct-AWQ 部署硬件配置建议 #### 1. **显卡需求** - **显存要求**: 该模型参数规模为32B(320亿),经过AWQ量化后,**单卡部署至少需要24GB以上显存**。根据引用[2]的实践案例,使用单块NVIDIA RTX 4090 48GB显卡可顺利完成部署和推理。 - **最低配置**:NVIDIA RTX 3090/4090(24GB显存),但需注意推理时可能出现显存不足风险。 - **推荐配置**:NVIDIA A100 40GB/80GB 或 RTX 4090 48GB,确保多模态任务(如图像理解)的稳定运行[^3]。 - **多卡支持**: 若需处理更高复杂度任务(如长序列输入或多轮对话),可通过多卡并行扩展显存。例如,使用2块RTX 4090 48GB显卡,通过vLLM框架实现分布式推理[^2]。 #### 2. **其他硬件配置** - **CPU**:推荐多核高性能CPU(如Intel Xeon或AMD EPYC系列),至少16核以上以支持数据预处理和任务调度。 - **内存**:建议128GB以上DDR4/DDR5内存,避免因内存不足导致进程中断。 - **存储**:模型文件大小约60-80GB(含权重和索引),需预留至少200GB SSD/NVMe存储空间[^1]。 #### 3. **软件依赖** - **CUDA版本**:需CUDA 12.1及以上,与NVIDIA驱动560.35.03+兼容[^2]。 - **推理框架**:建议使用优化后的vLLM框架(支持AWQ量化),可提升吞吐量30%以上[^3]。 #### 4. **典型部署场景** - **单卡推理**:适用于实时性要求中等的场景(如单图分析或短文本生成)。 - **多卡集群**:适用于高并发服务(如多用户在线问答平台)或复杂多模态任务(如视频内容理解)。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值