本地部署 DeekSeek 指南

Hey! Hey!

已于 2025-04-21 14:38:22 修改

阅读量1.2k

点赞数 16

文章标签： deepseek

于 2025-03-24 21:49:42 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_50448162/article/details/146487211

版权

在 AI 技术飞速发展的当下，DeekSeek 以其强大的功能崭露头角。但随着用户量的激增，服务器压力骤增，常常出现繁忙的情况。为了能更稳定、高效地使用 DeekSeek，将其部署在本地电脑上不失为一个绝佳选择。本地部署不仅能有效解决服务器繁忙的困扰，还能保障数据的隐私安全，提升响应速度。下面，就为大家详细介绍本地部署 DeekSeek 的方法。

一、准备工作

（一）硬件要求

显卡：需具备一定的图形处理能力，推荐使用 NVIDIA 的 GTX 1060（6GB）及以上型号，若想获得更流畅的体验，RTX3060 及以上更佳。显卡性能对 DeekSeek 的生成速度影响显著，例如，8B 模型在移动端 RTX 3060 上生成速度约为 5 字 / 秒，在桌面端 RTX 3060 平台约为 8 字 / 秒，14B 模型在桌面端 RTX 3060 平台约为 2 字 / 秒。
内存：容量至少为 8GB，不过为了更好地运行，建议配备 16GB 及更高的内存。内存大小会影响模型运行的流畅度和处理复杂任务的能力。
存储空间：C 盘需预留 20GB 的剩余空间，若条件允许，优先选用 NVMe 固态硬盘，以加快数据读写速度。

（二）软件要求

操作系统：支持 Windows、macOS 和 Linux 系统。若从性能和稳定性角度考虑，推荐使用 Linux 系统，如 Ubuntu 20.04 及以上版本。
Python：版本需在 3.8 及以上，Python 作为重要的编程语言，许多 AI 相关的工具和库都依赖它运行。
CUDA：为实现 GPU 加速，需安装 CUDA Toolkit，如 CUDA 11.3 版本，以充分发挥显卡的性能优势，提升模型推理和训练速度。
其他工具：

Ollama：这是一个用于在本地电脑设备上下载、部署和使用大模型（LLM）的开源软件，支持 Llama 3.3、DeepSeek - R1、Phi - 4、Mistral、Gemma 2 等多种模型。它提供了丰富的 LLM 库，能适配不同性能的电脑设备，是部署 DeekSeek 的关键工具。
LM Studio（可选）：一款专为本地运行大语言模型设计的客户端工具，支持多种开源模型，提供简单易用的界面，用户无需编写复杂代码即可加载和运行模型，还支持通过本地 API 接口与其他应用程序集成。
Open WebUI（可选）：可提供可视化界面操作，方便用户与模型进行交互。

二、安装与部署步骤

（一）安装 Ollama

访问 Ollama 官网（https://ollama.co m/ ），根据自己的操作系统（macOS、Linux、Windows）选择对应的版本进行下载。
下载完成后，进行安装。以 Windows 系统为例，直接双击运行下载出来的安装包，然后点击 “Install”。安装完成后，可在控制台输入 “ollama -v” 验证是否安装成功。

（二）下载 DeekSeek 模型

打开 Ollama 官网，在左上角找到 “models”，点击进入模型选择页面。
在众多模型中选择 “deepseek - R1” 大模型。DeekSeek 包含多个不同参数规模的模型，参数规模以 B（Billion，十亿）表示，数值越高，模型越复杂，理解和生成能力越强，但对系统性能要求也越高，生成内容速度越慢。例如：

1.5B：适合体验 / 尝鲜场景，模型文件约 3GB，对硬件要求较低，但功能相对较弱。
7B：适用于普通内容创作及开发测试场景，文件大小提升至 8GB，推荐搭配 16GB 内存 + 8GB 显存，能满足大多数用户的日常需求。
8B：在 7B 基础上更精细，适合对内容要求更高更精的场景，同样适合大多数用户。
14B：文件大小提升至 16GB，建议配备 12 核 CPU + 32GB 内存 + 16GB 显存，适合专业及深度内容创作场景。

根据自己电脑的性能选择合适的版本，然后复制对应的下载命令。
打开终端（MacBook 在启动台搜索终端并点击进入；Windows 系统找到终端管理员），将复制的命令粘贴到终端运行框，敲回车键，等待安装完成。例如，若选择下载 7b 版本的 DeepSeek - R1 模型，在终端执行 “ollama pull deepseek - r1:7b” 命令。

（三）运行 DeekSeek 模型

在终端中输入 “ollama run deepseek - r1:XXb”（XXb 为自己下载的模型版本，如 7b、8b 等）启动模型。如果需要进行微调或自定义配置，可使用 “ollama run deepseek - r1:XXb --device cuda --quant 4bit” 命令，其中 “--device cuda” 表示使用 GPU 加速，“--quant 4bit” 表示量化处理，以减少显存占用。
若安装了 LM Studio 客户端，安装完成后启动 LM Studio。进入 LM Studio 后，先点击右下角的设置图标（小齿轮）将语言改为简体中文。加载模型有两种方式：

若已自行下载好模型文件，点击左上方文件夹的图标，选择模型目录导入即可。
若不会自己找模型，可在 LMStudio 的设置里，在常规部分选中 “Use LM Studio's Hugging Face” 的复选框，然后点击左上方的搜索图标（放大镜），搜索 “deepseek” 即可找到各种不同版本的模型进行下载和加载。

（四）搭建可视化界面（可选）

Chatbox：如果不习惯在代码模式下与模型交互，可以下载安装 Chatbox 前端。下载完成后，点击设置，选择 Ollama API，再选择已经安装好的 deepseek - r1 大模型，保存设置后，就可以从 Chatbox 发起对话。
CherryStudio：下载并右键管理员身份运行安装 “Cherry - Studio - 0.9.19 - setup.exe” 软件。安装好后，桌面双击运行该软件，进行设置添加 deepseek 模型，选择 deepseek 模型即可进行对话。
Page Assist：在 Chrome 商店搜索 Page Assist 并安装到浏览器，插件默认是英文可修改成中文。在 RAG 设置里面的文本嵌入模型选择 deepseek，即可开启联网搜索。回到主页面，在对话框输入问题，必要时勾选联网开关就能与模型交互。