VLLM推理可以分配不同显存限制给两张卡吗?

环境:

VLLM 0.8.5

H20 96G

问题描述:

VLLM推理可以分配不同显存限制给两张卡吗?

一张卡90G显存,一张卡还有50多空余显存。

解决方案:

vLLM的gpu-memory-utilization参数是全局设置,不能为每张GPU单独分配不同的显存利用率。你只能设置一个统一的值,例如0.9,vLLM会在每张卡上按剩余可用显存的90%分配。

如何手动调整每张卡的可用显存或运行多个实例?

vLLM不支持为每张GPU单独设置显存利用率。若需手动调整每张卡的可用显存,可通过分别设置CUDA_VISIBLE_DEVICES环境变量,启动多个vLLM实例,每个实例绑定一张GPU,并为每个实例单独设置–gpu-memory-utilization参数。例如:

CUDA_VISIBLE_DEVICES=0 vllm serve ... --gpu-memory-utilization 0.5
CUDA_VISIBLE_DEVICES=1 vllm serve ... --gpu-memory-utilization 0.9

这样每个实例只占用指定GPU,并按需分配显存。

这样模型是不是单独运行两次?

是的,分别用CUDA_VISIBLE_DEVICES和不同–gpu-memory-utilization启动多个vLLM实例时,每个实例会单独加载一份模型,各自独立运行,互不共享显存和KV cache。

如需多卡协同推理,请用–tensor-parallel-size参数实现模型切分并行。

在这里插入图片描述
最后可以先启动别的程序,让他先占用显存,然后再启动vllm还是原来的配置
CUDA_VISIBLE_DEVICES=1 vllm serve … --gpu-memory-utilization 0.9

这样vllm这样达到推理可以分配不同显存限制给两张卡。

在这里插入图片描述
在这里插入图片描述

03-18
### 关于 vLLM 的 DeepSeek-R1 版本信息与硬件要求 #### 概述 vLLM 是一种高效的推理框架,支持多种大模型的部署和优化。对于 DeepSeek-R1 的具体版本以及其对应的硬件需求,可以从以下几个方面进行分析。 --- #### 1. **DeepSeek-R1 的量化版本** DeepSeek-R1 提供了多个量化的变体,这些变体旨在降低内存占用并提高推理效率。其中提到的 `DeepSeek-R1-Distill` 和其他量化版本可以通过 vLLM 进行高效部署[^1]。具体的量化技术可能涉及 INT8 或 FP16 精度转换,从而显著减少 GPU 显存的需求。 --- #### 2. **硬件配置建议** 针对 DeepSeek-R1 的部署,尤其是大规模模型(如 32B 参数),推荐的硬件配置如下: - **GPU 类型**: NVIDIA A100 或 V100 推荐用于高性能计算场景。如果预算有限,也可以考虑 RTX 4090 或者 T4。 - **显存大小**: 对于未量化的原始模型,单张至少需要 40GB 显存;而经过 INT8 量化后的模型可以在 24GB 或更少显存上运行[^2]。 - **多设置**: 如果采用双或多方案,则可以进一步提升吞吐量和支持更大的批量处理能力。例如,在两块 V100 (32GB) 上能够实现更高的并发请求响应速度。 --- #### 3. **软件环境准备** 为了成功部署 DeepSeek-R1 使用 vLLM,需注意以下几点: - 安装最新版 CUDA 及 cuDNN 库以匹配所使用的 GPU 架构。 - Python 环境应保持兼容性,通常建议使用 Python 3.8 至 3.10 范围内的版本。 - 下载对应预训练权重文件,并确保存储路径正确无误以便加载模型时调用。 --- #### 示例代码片段:启动服务端口监听 下面展示了一个简单的脚本来说明如何利用 vLLM 加载已有的 DeepSeek-R1 并开启 REST API 服务接口。 ```python from vllm import LLM, SamplingParams # 初始化大型语言模型实例 model_path = "/path/to/deepseek-r1" llm = LLM(model=model_path) # 设置采样参数 sampling_params = SamplingParams(temperature=0.7, top_p=0.95) # 测试生成一段文字 output = llm.generate(["Once upon a time,"], sampling_params=sampling_params) print(output) ``` --- #### 性能评估方法论 完成上述基础构建之后,还需要执行一系列压力测试来验证系统的稳定性和实际表现情况。这包括但不限于测量延迟时间、每秒查询次数(QPS),以及不同输入长度下的资源消耗状况等指标数据采集工作。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玩人工智能的辣条哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值