引言
上期介绍了在openEuler上使用Ollama推理框架快速部署DeepSeek的流程,适合于个人开发者与AI爱好者能快速上手体验DeepSeek。但是Ollama不适合大规模AI部署、大并行计算任务等场景,vLLM框架在这个场景则具有独到的优势。vLLM是一款专注于高性能LLM推理的工具,能够有效利用多核CPU和GPU资源,更加适合团队及企业用户。
系统环境硬件要求
CPU推理规格:
| 模型 | CPU | 内存 | 存储 |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 至少8核 | 16GB以上 | 60GB以上 |
| DeepSeek-R1-Distill-Qwen-7B | 至少128核 | 32GB以上 | 60GB以上 |
| DeepSeek-R1-Distill-Llama-8B | 至少128核 | 32GB以上 | 60GB以上 |
GPU推理规格
| 模型 | CPU | GPU | 内存 | 存储 |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 至少8核 | 至少6GB显存 | 16GB以上 | 60GB以上 |
| DeepSeek-R1-Distill-Qwen-7B | 至少32核 | 至少32GB显存 | 32GB以上 | 60GB以上 |
| DeepSeek-R1-Distill-Llama-8B | 至少32核 | 至少32GB显存 | 32GB以上 | 60GB以上 |
使用vLLM推理框架的DeepSeek部署过程
以下部署流程以鲲鹏920服务器,openEuler 24.03 LTS操作系统为例说明如何使用vLLM推理框架部署DeepSeek-R1-Distill-Llama-8B。
- vLLM框架对safetensors模型支持较好,可以从hf-mirror.com下载模型来获得更快的下载速度:
pip install huggingface-hub
export HF_ENDPOINT="https://hf-mirror.com"
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Llama-8B --local-dir DeepSeek-R1-Distill-Llama-8B
方式一:在鲲鹏CPU上的部署流程
首先需要

最低0.47元/天 解锁文章
6012

被折叠的 条评论
为什么被折叠?



