Linux中部署DeepSeek R1

最新推荐文章于 2025-08-05 19:41:49 发布

Java探索者 °

最新推荐文章于 2025-08-05 19:41:49 发布

阅读量1.1k

点赞数 16

CC 4.0 BY-SA版权

文章标签： linux 服务器语言模型

本文链接：https://blog.youkuaiyun.com/SmileSunshines/article/details/146332369

一、首先了解DeepSeek-R1 模型规格

B 则是指 “billion” 的意思，也就是十亿，表示这个模型有多少亿个参数。
DeepSeek-R1 本地部署硬件需求表

模型规模	GPU 需求	CPU 需求	内存需求	存储需求	备注
1.5B	- GTX 1650 4GB（可选）	四核 i5/Ryzen 3000+	16GB DDR4	50GB SSD	需4-bit量化，CPU推理延迟约10-30秒/回答，适合基础文本生成
7B	RTX 3060 12GB 或 RTX 4090 24GB	六核 i7/Ryzen 5000+	32GB DDR4	200GB NVMe SSD	FP16精度需14GB显存，4-bit量化后仅需6GB，生成速度约110 tokens/s
8B	RTX 3090 24GB 或 A10 24GB	八核 Xeon/EPYC	64GB DDR4	500GB NVMe SSD	推荐vLLM框架优化吞吐量，支持多轮对话（3-10秒/回答）
14B	A100 40GB 或双RTX 4090 24GB	16核 Xeon/EPYC	128GB DDR5	1TB PCIe 4.0 SSD	需8-bit量化显存占用约32GB，生成速度约66 tokens/s
32B	双A770 16GB 或双A100 80GB	24核 EPYC/至强W	256GB DDR5 ECC	2TB NVMe SSD阵列	双A770组合成本低（约4千元），支持26 tokens/s生成速度
70B	4×H100 80GB 集群	32核 EPYC/至强	512GB DDR5 ECC	4TB PCIe 5.0 SSD阵列	需TensorRT-LLM优化，亚秒级响应（0.5-2秒/回答），推荐云端A100集群
671B	32×H100 80GB 集群	64核 EPYC/至强 Platinum	1TB DDR5 ECC	分布式存储（PB级）	需InfiniBand互联+MoE架构，显存需求超640GB，仅适合专业服务器部署

二、安装Ollama

Ollama官网地址：https://ollama.com

使用命令安装：curl -fsSL https://ollama.com/install.sh | sh （等到安装完成）；
安装完成后输入：ollama -v 查看版本号，如果输出版本号代表安装成功（Ollama在linux后台自启的关机重启后不用再次启动）；
使用浏览器访问：http://localhost:11434/ 看看是否显示 Ollama is running（运行状态）。

三、从Ollama中安装DeepSeep模型

Ollama官网的DeepSeek-R1模型地址：https://ollama.com/library/deepseek-r1

模型	大小	安装命令
1.5B	1.1GB	ollama run deepseek-r1:1.5b
7B	4.7GB	ollama run deepseek-r1:7b
8B	4.9GB	ollama run deepseek-r1:8b
14B	9.0GB	ollama run deepseek-r1:14b
32B	20GB	ollama run deepseek-r1:32b
70B	43GB	ollama run deepseek-r1:70b
671B	404GB	ollama run deepseek-r1:671b

如果是个人部署测试推荐使用7B的模型，安装命令：ollama run deepseek-r1:7b
等待安装，安装完成后会出 success 字样。
安装完成后就可以以 cmd 的形式进行对话聊天了。
如果机器重启后需要再次运行安装命令来启动模型。

四、安装 Open WebUI

使用docker安装，安装命令：docker pull ghcr.io/open-webui/open-webui:main
运行open-webui容器：

原命令
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
改后命令
docker run -d -p 3000:8080 --network=host -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

实测原命令加载docker容器后使用 http://localhost:3000 无法加载模型，使用修改后的命令可以加载到模型。
如果Ollama和open-webui部署在同一台机器可以忽略3的步骤。

如果部署的不是同一台机器需要添加参数

-e OLLAMA_BASE_URL=http://127.0.0.1:11434
docker run -d -p 3000:8080 --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main