纯cpu部署vllm运行大模型并对接openwebui

Zvanity

已于 2025-03-14 15:14:29 修改

阅读量1.9k

点赞数 11

分类专栏：大模型文章标签： linux ai 人工智能

于 2025-03-03 09:41:44 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41449217/article/details/145975693

版权

大模型专栏收录该内容

1 篇文章

订阅专栏

纯cpu部署vllm运行大模型并对接openwebui

1、在github上拉取vllm的信息，有dockerfile文件可以直接打包镜像

git clone https://github.com/vllm-project/vllm.git

无法git就直接进去手动下载上传到机器并解压

https://github.com/vllm-project/vllm

dockerfile的文件名称为Dockerfile.cpu

docker build -t 名字 -f 指定文件 .

2、或者直接拉我打包好的镜像

docker push crpi-bqw6jlj8rfo7p9nr.cn-hangzhou.personal.cr.aliyuncs.com/zjinimages/vllm-cpu:latest

3、拉取大模型，可以进入魔塔社区拉取需要的镜像
https://modelscope.cn/models
具体查看官方文档
https://modelscope.cn/docs/intro/quickstart

pip install modelscope
modelscope download --model="Qwen/Qwen2.5-0.5B-Instruct" --local_dir ./model-dir

4、部署vllm并运行大模型

docker run \
    -v /home/aimodels/:/home/llm_deploy \
    -p 8888:8000 \
    --ipc=host \
    -d \
    --name vllm_deepseek_qwen7b \
    vllm-cpu:latest \
    --model /home/llm_deploy/DeepSeek-R1-Distill-Qwen-7B \  
    --tensor-parallel-size 2 \  
    --max_model_len 60000

-v /home/aimodels/:/home/llm_deploy
将宿主机的 /home/aimodels/目录挂载到容器内的 /home/llm_deploy 目录。这样容器可以访问宿主机上的文件
-p 8888:8000
将容器内部的 8000 端口映射到宿主机的 8888 端口，方便从宿主机访问容器内的服务
--ipc=host
允许容器访问宿主机的共享内存，这对于 PyTorch 等框架在多进程推理时共享数据非常重要
--tensor-parallel-size 2
设置张量并行的大小为 2，用于分布式推理
--max_model_len 30000
设置模型的最大长度为 30000
5、部署完成后测试

curl http://localhost:8888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
    "model": "/home/llm_deploy/DeepSeek-R1-Distill-Qwen-7B",
    "messages": [
        {"role": "user", "content": "你是谁?"}
    ]
}'

6、对接openwebui
别的具体信息可以查看open-webui的github的README文件
https://github.com/open-webui/open-webui/blob/main/README.md

docker run -d -p 3000:8080 --name open-webui \
  -e OPENAI_API_BASE_URL=http://vllm-server:8000/v1 \
  ghcr.io/open-webui/open-webui:main

http://vllm-server:8000/v1 vllm-server是你部署vllm的机器ip
登录openwebui
http://ip:3000