【GPT入门】第65课 vllm指定其他卡运行的方法，解决单卡CUDA不足的问题

最新推荐文章于 2025-10-22 01:20:08 发布

原创最新推荐文章于 2025-10-22 01:20:08 发布 · 570 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#gpt

大模型专栏收录该内容

92 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

【GPT入门】第65课 vllm指定其他卡运行的方法，解决单卡CUDA不足的问题

１.原理
- - 说明：
２.实践

１.原理

要将 vllm 部署在第二张 GPU 卡上（设备编号为 1），只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备：

CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明：

CUDA_VISIBLE_DEVICES=1 是核心配置，强制程序仅使用编号为 1 的 GPU（第二张卡，GPU 编号从 0 开始计数）
若需验证 GPU 编号，可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

如需额外参数（如指定端口、并发数等），可直接追加在命令后，例如：

CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

２.实践

下面的图是nvitop，（通过pip install nvitop 安装）的截图

运行前
指定第一个卡运行
命令：

CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

在这里插入图片描述

其他llm程序默认在第0个卡运行

您可能感兴趣的与本文相关的镜像

PyTorch 2.9

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

*星星之火*

关注关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

vllm专题（一）：安装-GPU

02-16

1110

vLLM 是一个 Python 库，支持以下 GPU 变体。vLLM 包含预编译的 C++ 和 CUDA（12.1）二进制文件。vLLM 支持配备 ROCm 6.3 的 AMD GPU。此设备没有预构建的 wheel 包，因此您必须使用预构建的 Docker 镜像或从源代码构建 vLLM。vLLM 初步支持在 Intel GPU 平台上进行基本模型推理和服务。此设备没有预构建的 wheel 包或镜像，因此您必须从源代码构建 vLLM。

国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-23

1902

DeepSeek-V3 是当前开源领域最接近 GPT-4 的中文大模型，采用稀疏激活的 MoE 架构，实现了“性能强大、成本可控”的理想平衡。它支持 128K 超长上下文、具备出色的中文理解与生成能力，并全面开源可商用，适合私有部署与行业落地。本文将系统解析 DeepSeek-V3 的架构原理、训练策略、部署方法与应用实战，涵盖从 ChatGPT 式助手到企业知识问答系统的完整路径，帮助你用好这个真正能“落地”的强大国产大模型。

参与评论您还未登录，请先登录后发表或查看评论

vllm框架大模型部署笔记

Gu_erye的博客

08-12

7425

注意：张量并行计算的并行度通常需要与指定的 GPU 数量保持一致。这是因为张量并行计算的核心思想是将模型的张量（如权重矩阵）分割成多个部分，并将这些部分分布到多个 GPU 上进行并行计算。：通过存储进程 ID，可以方便地管理和终止后台运行的程序。

为什么 vLLM 更“吃”显存？

最新发布

2402_83802259的博客

10-22

876

vLLM相比HuggingFace Transformers更吃显存的核心原因在于其设计理念差异：vLLM为高性能推理预分配资源（如固定长度的KVCache、PagedAttention元数据），支持批量并发但启动开销大；Transformers则动态分配，更节省初始显存但效率较低。关键差异包括KVCache管理方式、精度选择、分页机制等。要让vLLM在有限显存下运行，可调整内存利用率、减小序列长度、禁用chunked prefill或使用量化模型。二者适用于不同场景：Transformers适合低并发需求

【杂记】vLLM如何指定GPU单卡离线推理

LZXCyrus的博客

11-19

5895

vLLM如何指定GPU单卡/多卡离线推理

多卡情况下指定vllm运行卡，防止CUDA out of memory

m0_58173553的博客

07-22

610

多卡环境下，有时只需要一张卡启动vllm运行本地推理，即使有卡且卡是空的也会显示CUDA out of memory。设置export CUDA_VISIBLE_DEVICE来指定要用哪张卡，也不管用，运行vllm的时候还是显示GPU 0没空间（GPU 0 确实被其他程序占用），怎么办？怎么指定空闲的卡来运行？需要在文件开始的地方加入下列代码，指定GPU卡号，如下，指定卡6。

vllm指定gpu序号

qq_52024723的博客

10-30

3518

如果想要指定vllm serve 运行的1号gpu，不能仅仅在前面加CUDA_VISIBLE_DEVICES=1；还需要在参数里指定device = cuda,因为不指定的话默认device是auto。

【实践总结】vllm多卡推理

qq_41502855的博客

07-28

1万+

多卡推理，设置tensor_parallel_size=2，服务：Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵‍💫。环境：2* A100 40G。模型：qwen2-7B。

【模型之美】7、开源大模型：零成本部署AI系统

专注AI工程化与架构实战。从分布式思维到模型部署，用工程化视角为你厘清AI落地的真实路径。

07-26

2257

开源大模型本地部署指南：从选型到API开发随着商用AI成本上升和数据隐私需求增长，开源大模型成为破局关键。本文提供开源模型本地部署完整方案，涵盖：模型选型：对比主流开源模型参数与性能，推荐LLaMA 2、ChatGLM等适配不同硬件的中英文模型量化技术：详解4-bit量化方法，可将7B模型显存需求从24GB降至6GB，保留90%性能本地部署：提供Python交互代码和FastAPI封装方案，支持消费级显卡运行包含30+实战代码片段，适配5类硬件设备，帮助开发者在本地实现媲美商业API的AI能力，兼

大语言模型的学习路线和开源模型的学习材料《一》

全网120W+关注AI拉呱，专注人工智能以及科技前沿！

11-01

1686

【LLMs 入门实战】 ChatGLM3 模型学习与实战【LLMs 入门实战】 ChatGLM3 模型微调学习与实战【ChatGLM2-6B入门】清华大学开源中文版ChatGLM-6B模型学习与实战【关于 ChatGLM2 + LoRA 进行finetune 】那些你不知道的事【LLMs 入门实战】基于 🤗PEFT 的高效 🤖ChatGLM2-6B 微调【LLMs 入门实战】基于 🤗QLoRA 的高效 🤖ChatGLM2-6B 微调【LLMs 入门实战】 QLoRA微调Llama2 模型学习与实战

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

weixin_41544125的博客

06-10

3030

Qwen3-Embedding-0.6B的诞生，重新定义了轻量级文本嵌入模型的能力边界——在6亿参数规模下，它实现了多语言、长文本、指令优化等核心能力的突破，为实际应用提供了“能效比”最优的解决方案。无论是跨境电商的实时检索，还是企业级代码管理，亦或是小语种情感分析，该模型都展现了卓越的适应性和性能。作为阿里巴巴通义实验室Qwen3系列的重要成员，该模型在保持6亿参数规模的同时，实现了多语言支持、长文本理解、指令优化等关键能力的突破，为边缘计算、实时检索等场景提供了高效解决方案。

VLLM推理可以分配不同显存限制给两张卡吗？

本博客，博文仅代表个人操作经验，不能完全解决你的问题，仅供参考，佛系回复。

05-24

1356

VLLM 0.8.5H20 96GVLLM推理可以分配不同显存限制给两张卡吗？一张卡90G显存，一张卡还有50多空余显存。vLLM的gpu-memory-utilization参数是全局设置，不能为每张GPU单独分配不同的显存利用率。你只能设置一个统一的值，例如0.9，vLLM会在每张卡上按剩余可用显存的90%分配。如何手动调整每张卡的可用显存或运行多个实例？vLLM不支持为每张GPU单独设置显存利用率。若需手动调整每张卡的可用显存，可通过分别设置CUDA_VISIBLE_DEVICES环境变量，启动多个v

通过 vLLM 整合多台PC的显卡资源运行本地大模型（多机多卡）

学亮编程手记

03-28

4257

是整合多台PC显卡资源的首选工具，其分布式架构、生产级优化和成熟生态（如 Ray 和 Docker）能有效解决跨节点部署的复杂性问题。若需快速验证，可参考。根据你的需求（整合多台PC的显卡资源运行本地大模型），

解决vllm推理框架内在开启多显卡时报错问题

洛阳泰山的博客

03-26

4583

一般报错的原因情况有三种。

只需 24G 显存，用 vllm 跑起来 Yi-34B 中英双语大模型

arkohut的博客

12-28

7387

上次介绍了用 vllm 去部署 mixtral 8x7b 的 GPTQ 量化版本，只是跑了一下 benchmark，这次玩一下 Yi-34b 这个模型的量化版本，看看怎么使用 vllm 直接暴露出来一个 API 服务。

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度23 words/s

freewebsys的专栏

12-01

6246

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度23 words/s。随着大模型的参数增加，企业用户再使用的是特别需要大参数的模型了。因为大模型在更加准确。硬件都不是问题。通过多卡的方式可以成功部署。2张 3090，或者 4090 就可以部署 Yi-34B-Chat-int4模型了。但是目前看中文稍微有点小问题，会返回英文，相信很快会迭代下一个版本了。

VLLM调优

qq_46059596的博客

03-24

5865

vLLM 是一个高效的大模型推理框架，专为优化显存利用和高吞吐量设计。如果需要更具体的代码框架示例，可以进一步说明你的使用场景（如多GPU部署、API服务等）！这些代码需要在加载模型时一次性配置，且必须在调用。（如模型加载参数、显存优化、并行策略等）必须写在。（如解码策略、生成长度等）则在调用。部分系统级配置（如环境变量）需在。在 vLLM 中，所有与。

利用免费 GPU 部署体验大型语言模型推理框架 vLLM

2201_75499313的博客

03-23

3131

vLLM 是一个快速且易于使用的 LLM（大型语言模型）推理和服务库。vLLM 之所以快速，是因为：最先进的服务吞吐量通过高效管理注意力键和值内存连续批处理传入请求使用 CUDA/HIP 图快速模型执行量化：GPTQ[1]、AWQ[2]、SqueezeLLM[3]、FP8 KV 缓存优化的 CUDA 内核vLLM 灵活且易于使用，因为它：与流行的 HuggingFace 模型无缝集成通过各种解码算法提供高吞吐量服务，包括并行采样、波束搜索等支持分布式推理的张量并行性支持流式输出。

LLM 部署(3)——vLLM CPU 和 GPU 模式部署大语言模型