如何在本地部署 DeepSeek-R1 671B 完整满血版模型

最新推荐文章于 2025-02-27 00:37:24 发布

爱吃香菜

最新推荐文章于 2025-02-27 00:37:24 发布

阅读量1k

点赞数 11

分类专栏：职场经验程序员软件测试文章标签： deepseek 自动化测试职场经验软件测试程序员互联网深度学习

本文链接：https://blog.youkuaiyun.com/wx17343624830/article/details/145712890

版权

软件测试同时被 3 个专栏收录

3982 篇文章

订阅专栏

程序员

3090 篇文章

订阅专栏

职场经验

763 篇文章

订阅专栏

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

1. 准备阶段

下载模型文件：从 HuggingFace 上下载完整的 DeepSeek-R1 671B 模型文件（.gguf 格式）。

提示：可以使用安装了 Homebrew 的用户，通过以下命令进行安装：

/bin/bash -c "curl -fSSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh | sh" 
brew install llama.cpp

并使用 llama-gguf-split 将下载的分片文件合并成完整文件。

命令：

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf 
llama-gguf-split --merge DeepSeek-R1-Q4_K_M-00001-of-00009.gguf DeepSeek-R1-Q4_K_M.gguf

选择硬件配置：根据模型大小和需求，选择合适的硬件。推荐使用以下配置：

Mac Studio：配备高带宽的统一内存、至少 200 GB 显存。

云 GPU 服务器：适合运行多任务。

个人电脑：建议至少 500 GB 显存。

2. 安装 Ollama 工具

安装 Ollama：

sudo apt-get update && sudo apt-get install ollama

设置 Ollama 选项：

根据需求调整参数：

ollama config --verbose "num_ctx=2048" 
ollama config --verbose "temperature=0.6" 
ollama config --verbose "top_k=10"

保存并应用配置。

3. 创建模型描述文件

定义模型参数：

根据硬件选择合适的参数，生成 .Modelfile 文件。

示例文件内容：

FROM /path/to/your/model文件路径 
MODELPARAMETER num_gpu 28 
PARAMETER num_ctx 2048 
PARAMETER temperature 0.6

保存并运行：

创建目录 DeepSeek-R1-UD-IQ1_M，并运行：

cd DeepSeek-R1-UD-IQ1_M 
ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile 
或者：
ollama create DeepSeek-R1-Q4_K_M -f DeepSeekQ4_Modelfile

4. 运行模型

启动 Ollama 服务：

sudo systemctl start ollama.service

测试性能：

使用 ollama run 命令，调整 --verbose 参数查看运行速度。

示例：

ollama run DeepSeek-R1-UD-IQ1_M --verbose

输出将显示模型的推理速度（token/秒）。

5. 优化与注意事项

内存管理：

确保系统有足够的内存和交换空间。可以使用以下指令扩展交换空间：

journalctl -u ollama --no-pager

硬件选择：

对于短文本生成任务，Mac Studio 或个人电脑是不错的选择。

对于长文本生成，云 GPU 服务器或 high-end GPU 显卡（如 NVIDIA H100）效果更佳。

模型版本选择：

1.73-bit 量化版本（131GB）适合预算有限的用户，运行速度更快。

4-bit 量化版本（404GB）性能更强，但体积较大。

3-bit 量化版本（212GB）平衡了性能和体积，适合中等需求。

6. 常见问题与解决方案

内存不足：

建议升级系统内存或增加交换空间。

使用更小的上下文窗口，逐步增加直到触发内存错误。

显存不足：

选择更高配置的硬件（如四卡 RTX 4090）。

模型运行速度慢：

调整 num_ctx 参数，降低上下文窗口大小。

使用云服务部署，提升计算资源利用率。

7. 部署工具与资源

推荐工具：

安装 Open WebUI 进行Web界面访问。

使用安装的 llama-gguf-split 工具处理模型文件。

资源消耗：

模型大小约 720GB，建议使用高带宽的统一内存环境。

云服务部署可显著降低硬件成本，提升性能。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】
在这里插入图片描述