DeepSeek蒸馏版模型VLLM部署方案

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

一、环境准备

  1. 检查CUDA版本
nvidia-smi | grep "CUDA Version"  

注意:

  • 根据CUDA版本选择对应的安装流程(12.4 / <12.1)
  • 确保GPU驱动与CUDA版本兼容(参考NVIDIA官方文档 )

二、环境配置

  1. CUDA 12.4 版本配置流程
# 创建conda环境  
conda create -n vllm_v0.7.1 python=3.11 –y  
conda activate vllm_v0.7.1  

# 安装vllm(使用清华镜像加速)  
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple   
  1. CUDA <12.1 版本配置流程
# 创建conda环境  
conda create -n vllm_ds2 python=3.10  
conda activate vllm_ds2  

# 安装指定版本vllm  
pip install vllm==0.3.2  

关键差异说明:

CUDA 12.4需搭配更高版本Python(3.11)和默认vllm
CUDA <12.1需使用旧版Python(3.10)和vllm==0.3.2

三、服务启动命令

  1. 前台启动(实时日志)
CUDA_VISIBLE_DEVICES=7 \  
VLLM_USE_V1=1 \  
VLLM_WORKER_MULTIPROC_METHOD=spawn \  
vllm serve /data4/LLM/DeepSeek-R1-Distill-Qwen-14B \  
--trust-remote-code --served-model-name deepseek-r1-14b \  
--gpu-memory-utilization 0.95 --tensor-parallel-size 1 \  
--port 8561 --max-model-len 65536  
  1. 后台启动(nohup日志持久化)
CUDA_VISIBLE_DEVICES=7 \  
VLLM_USE_V1=1 \  
VLLM_WORKER_MULTIPROC_METHOD=spawn \  
nohup vllm serve /data4/LLM/DeepSeek-R1-Distill-Qwen-14B \  
--trust-remote-code --served-model-name deepseek-r1-14b \  
--gpu-memory-utilization 0.95 --tensor-parallel-size 1 \  
--port 8561 --max-model-len 65536 > vllm.log  2>&1 &  

vllm是0.3.2版本时,启动命令有差异:

CUDA_VISIBLE_DEVICES=0 VLLM_USE_V1=1 VLLM_WORKER_MULTIPROC_METHOD=spawn python3 -m vllm.entrypoints.openai.api_server --model /data/LLM/Qwen2.5-3B-Instruction --trust-remote-code --served-model-name qwen2.5-3b --gpu-memory-utilization 0.12 --tensor-parallel-size 1 --port 8567 --max-model-len 5536

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

在 NVIDIA GeForce RTX 3070 显卡上本地部署 DeepSeek 蒸馏模型,需根据硬件资源选择合适的模型本,并采用合适的部署工具和流程。RTX 3070 通常具备 8GB 显存,适合运行中高显存需求的模型。 ### 1. 选择合适的模型本 根据硬件配置,RTX 3070 可以运行以下模型: - **DeepSeek-R1-Distill-Llama-7B** 或 **DeepSeek-R1-Distill-Qwen-7B**:适合大多数自然语言处理任务,如文本生成、对话、代码生成等,且在 8GB 显存下运行较为稳定。 - **4bit 量化本的 32B 模型**:如果希望使用更复杂的模型,可以尝试 4bit 量化后的 DeepSeek-R1-Distill-Llama-32B,该本在推理效率和资源占用之间取得了较好的平衡[^4]。 ### 2. 部署工具选择 - **Ollama**:适合快速部署与使用,适合个人用户和初学者。Ollama 支持多种模型格式,可简化部署流程,但灵活性较低。 - **vLLM**:更适合开发者和企业用户,支持高性能推理,并可通过 `--tensor-parallel-size` 参数进行多 GPU 分布式推理,尽管当前仅有一张 RTX 3070,vLLM 依然能够提供高效的单卡推理能力。 - **Hugging Face Transformers + LangChain**:适合需要深度定制和集成到现有 AI 流程的用户,具备高度灵活性,但部署复杂度较高。 ### 3. 环境准备 - 安装 CUDA 和 cuDNN,确保与显卡驱动兼容。 - 安装 Python 3.10 或更高本。 - 安装必要的依赖库,如 PyTorch、Transformers 等: ```bash pip install torch pip install transformers pip install vLLM # 如使用 vLLM 进行推理 ``` ### 4. 模型下载与加载 - 从官方或可信的模型仓库下载 DeepSeek 蒸馏模型的权重文件,例如 Hugging Face 或 ModelScope。 - 如果使用 vLLM,可以通过如下命令加载模型并进行推理: ```bash python -m vLLM --model deepseek-ai/deepseek-llm-7b-distill --host 0.0.0.0 --port 8000 ``` - 如果使用 Transformers 库加载模型: ```python from transformers import AutoTokenizer, AutoModelForCausalLM model_name = "deepseek-ai/deepseek-llm-7b-distill" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda") ``` ### 5. 模型推理 - 使用命令行或编写 Python 脚本进行文本生成任务,例如: ```python input_text = "你好,DeepSeek!" inputs = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_length=100) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` ### 6. 离线部署(如适用) - 如果部署环境无法联网,需提前在联网环境中下载模型文件和相关依赖包,并将其拷贝到目标设备上进行安装和部署[^2]。 ### 7. 性能优化建议 - 使用 **量化技术**(如 4bit 量化)可进一步降低显存占用,提高推理速度。 - 合理设置 `max_length` 和 `batch_size`,以避免超出显存限制。 - 在部署过程中监控 GPU 使用情况,确保模型运行稳定。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值