1.docker部署
镜像库地址:https://hub.docker.com/r/vllm/vllm-openai/tags
拉取镜像:docker pull vllm/vllm-openai:v0.8.5.post1
启动:
sudo docker run -d --privileged=true --gpus all -v /vllm:/home/llm_deploy -p 9000:8000 --ipc=host --name vllm2025 vllm/vllm-openai:v0.8.5.post1
可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,它使用共享内存在后台进程之间共享数据,特别是对于张量并行推理。
2.pip安装vllm==0.8.5
conda create -n vllm python=3.12 -y
conda activate vllm
pip install vllm
vLLM 是使用 CUDA 12.4 编译的,因此您需要确保机器运行的是该版本的 CUDA。
检查 CUDA 版本,运行:nvcc --version
如果CUDA 版本不是 12.4,可以安装与您当前 CUDA 版本兼容的 vLLM 版本
3.启动vllm命令
cd /home/llm_deploy/
vllm serve RolmOCR --dtype=half/
使用时,模型名称为“RolmOCR ”
4.调用接口
client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")
model = "Qwen3-4B"
def chat():
response = client.chat.completions.create(
model=model,
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "中国首都.\n",
},
],
}
],
temperature=0.1,
max_tokens=4096
)
return response.choices[0].message.content
print(chat())