如何使用vllm在服务器上部署模型并调用

最新推荐文章于 2025-05-14 11:27:56 发布

程序源⠀

最新推荐文章于 2025-05-14 11:27:56 发布

阅读量3.5k

点赞数 4

分类专栏： python 文章标签： python linux 开发语言

本文链接：https://blog.youkuaiyun.com/weixin_73609038/article/details/142941705

版权

python 专栏收录该内容

6 篇文章

订阅专栏

前言

📢博客主页：程序源⠀-优快云博客
📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！

一、前期准备

环境准备：python3.10，cuda12.1

安装vllm：

Installation — vLLM

# (Recommended) Create a new conda environment.
conda create -n myenv python=3.10 -y
conda activate myenv

# Install vLLM with CUDA 12.1.
pip install vllm

二、模型下载、启动服务

在魔塔社区找到自己要下载的模型。复制模型名称

魔搭社区

直接用这个命令

vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123

如果没有下载模型，会先下载模型的。

如果网络超时或者报错。可以选择从魔塔社区下载，vllm默认是从huggingface去下载的。

要设置环境变量

export VLLM_USE_MODELSCOPE=True

三、调用服务

api_key是启动命令行里面下自己定义的

和openAI一样的调用方式

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc123",
)

completion = client.chat.completions.create(
  model="NousResearch/Meta-Llama-3-8B-Instruct",
  messages=[
    {"role": "user", "content": "Hello!"}
  ]
)

print(completion.choices[0].message)

关注博主即可阅读全文