【GPT入门】第46课 vllm安装、部署与使用

1.准备服务器

cuda 版本选12.1
vllm官网介绍:在这里插入图片描述

https://vllm.hyper.ai/docs/getting-started/installation/gpu
在这里插入图片描述

2. 安装 conda环境,隔离base环境

为了实现高性能,vLLM 需要编译多个 cuda 内核。然而,这一编译过程会导致与其他 CUDA 版本和 PyTorch 版本的二进制不兼容问题。即便是在相同版本的 PyTorch 中,不同的构建配置也可能引发此类不兼容性。

因此,建议使用全新的 conda 环境安装 vLLM。如果您有不同的 CUDA 版本,或者想要使用现有的 PyTorch 安装,则需要从源代码构建 vLLM。更多说明请参阅下文。

conda create -n vllm python=3.10 -y
conda activate vllm

pip install vllm

3. vllm使用

3.1 在线推理, openai兼容服务器

vLLM 可以部署为实现 OpenAI API 协议的服务器。这使得 vLLM 可以作为使用 OpenAI API 的应用程序的直接替代品。默认情况下,服务器在 http://localhost:8000 启动。您可以使用 --host 和 --port 参数指定地址。服务器目前 1 次托管 1 个模型,并实现了诸如:列出模型、创建聊天补全和创建补全等端点。

  • 运行以下命令以启动 vLLM 服务器并使用 Qwen2.5-0.5B-Instruct 模型:
    使用Qwen2.5模型
    pip install model_scope
from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct',cache_dir='/root/autodl-tmp/models')
print(model_dir)
  • 启动服务
vllm serve /root/autodl-tmp/models/Qwen/Qwen2.5-0.5B-Instruct

在这里插入图片描述
在这里插入图片描述

列出模型

curl http://localhost:8000/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值