DeepSeek蒸馏版模型VLLM部署方案

最新推荐文章于 2025-10-14 20:33:46 发布

原创最新推荐文章于 2025-10-14 20:33:46 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#ai

AIGC人工智能专栏收录该内容

25 篇文章

订阅专栏

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

一、环境准备

检查CUDA版本

nvidia-smi | grep "CUDA Version"

注意：

根据CUDA版本选择对应的安装流程（12.4 / <12.1）
确保GPU驱动与CUDA版本兼容（参考NVIDIA官方文档）

二、环境配置

CUDA 12.4 版本配置流程

# 创建conda环境  
conda create -n vllm_v0.7.1 python=3.11 –y  
conda activate vllm_v0.7.1  

# 安装vllm（使用清华镜像加速）  
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

CUDA <12.1 版本配置流程

# 创建conda环境  
conda create -n vllm_ds2 python=3.10  
conda activate vllm_ds2  

# 安装指定版本vllm  
pip install vllm==0.3.2

关键差异说明：

CUDA 12.4需搭配更高版本Python（3.11）和默认vllm
CUDA <12.1需使用旧版Python（3.10）和vllm==0.3.2

三、服务启动命令

前台启动（实时日志）

CUDA_VISIBLE_DEVICES=7 \  
VLLM_USE_V1=1 \  
VLLM_WORKER_MULTIPROC_METHOD=spawn \  
vllm serve /data4/LLM/DeepSeek-R1-Distill-Qwen-14B \  
--trust-remote-code --served-model-name deepseek-r1-14b \  
--gpu-memory-utilization 0.95 --tensor-parallel-size 1 \  
--port 8561 --max-model-len 65536

后台启动（nohup日志持久化）

CUDA_VISIBLE_DEVICES=7 \  
VLLM_USE_V1=1 \  
VLLM_WORKER_MULTIPROC_METHOD=spawn \  
nohup vllm serve /data4/LLM/DeepSeek-R1-Distill-Qwen-14B \  
--trust-remote-code --served-model-name deepseek-r1-14b \  
--gpu-memory-utilization 0.95 --tensor-parallel-size 1 \  
--port 8561 --max-model-len 65536 > vllm.log  2>&1 &

vllm是0.3.2版本时，启动命令有差异：

CUDA_VISIBLE_DEVICES=0 VLLM_USE_V1=1 VLLM_WORKER_MULTIPROC_METHOD=spawn python3 -m vllm.entrypoints.openai.api_server --model /data/LLM/Qwen2.5-3B-Instruction --trust-remote-code --served-model-name qwen2.5-3b --gpu-memory-utilization 0.12 --tensor-parallel-size 1 --port 8567 --max-model-len 5536

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本