VLLM在linux下部署

最新推荐文章于 2025-07-02 15:28:04 发布

原创最新推荐文章于 2025-07-02 15:28:04 发布 · 970 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#linux #服务器

大模型专栏收录该内容

15 篇文章

订阅专栏

1.docker部署

镜像库地址：https://hub.docker.com/r/vllm/vllm-openai/tags

拉取镜像：docker pull vllm/vllm-openai:v0.8.5.post1

启动：

sudo docker run -d --privileged=true --gpus all -v /vllm:/home/llm_deploy -p 9000:8000 --ipc=host --name vllm2025 vllm/vllm-openai:v0.8.5.post1

可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch，它使用共享内存在后台进程之间共享数据，特别是对于张量并行推理。

2.pip安装vllm==0.8.5

conda create -n vllm python=3.12 -y
conda activate vllm

pip install vllm

vLLM 是使用 CUDA 12.4 编译的，因此您需要确保机器运行的是该版本的 CUDA。

检查 CUDA 版本，运行：nvcc --version

如果CUDA 版本不是 12.4，可以安装与您当前 CUDA 版本兼容的 vLLM 版本

3.启动vllm命令

cd /home/llm_deploy/

vllm serve RolmOCR --dtype=half/

使用时，模型名称为“RolmOCR ”

4.调用接口

  client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")

    model = "Qwen3-4B"


    def chat():
        response = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "user",
                    "content": [

                        {
                            "type": "text",
                            "text": "中国首都.\n",
       
                        },
                    ],
                }
            ],
            temperature=0.1,
            max_tokens=4096
        )
        return response.choices[0].message.content


    print(chat())