【GPT入门】第46课 vllm安装、部署与使用

原创

已于 2025-08-13 10:42:02 修改 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#gpt

于 2025-08-13 04:11:29 首次发布

【GPT入门】第46课 vllm安装、部署与使用

1.准备服务器
2. 安装 conda环境，隔离base环境
3. vllm使用
- 3.1 在线推理, openai兼容服务器
- 3.2 模型离线调用
4. 没有使用GPU问题分析

1.准备服务器

cuda 版本选12.1
vllm官网介绍：在这里插入图片描述

https://vllm.hyper.ai/docs/getting-started/installation/gpu
在这里插入图片描述

2. 安装 conda环境，隔离base环境

为了实现高性能，vLLM 需要编译多个 cuda 内核。然而，这一编译过程会导致与其他 CUDA 版本和 PyTorch 版本的二进制不兼容问题。即便是在相同版本的 PyTorch 中，不同的构建配置也可能引发此类不兼容性。

因此，建议使用全新的 conda 环境安装 vLLM。如果您有不同的 CUDA 版本，或者想要使用现有的 PyTorch 安装，则需要从源代码构建 vLLM。更多说明请参阅下文。

conda create -n vllm python=3.10 -y
conda activate vllm

pip install vllm

3. vllm使用

3.1 在线推理, openai兼容服务器

vLLM 可以部署为实现 OpenAI API 协议的服务器。这使得 vLLM 可以作为使用 OpenAI API 的应用程序的直接替代品。默认情况下，服务器在 http://localhost:8000 启动。您可以使用 --host 和 --port 参数指定地址。服务器目前 1 次托管 1 个模型，并实现了诸如：列出模型、创建聊天补全和创建补全等端点。

运行以下命令以启动 vLLM 服务器并使用 Qwen2.5-0.5B-Instruct 模型：
使用Qwen2.5模型
pip install model_scope

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct',cache_dir='/root/autodl-tmp/models')
print(model_dir)

启动服务

vllm serve /root/autodl-tmp/models/Qwen/Qwen2.5-0.5B-Instruct

在这里插入图片描述

列出模型

curl http://localhost:8000/

最低0.47元/天解锁文章