Mac本地部署DeepSeek-R1

原创已于 2025-03-01 16:02:23 修改 · 1.5k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #ai

于 2025-03-01 15:31:31 首次发布

人工智能(AI) 专栏收录该内容

1 篇文章

订阅专栏

第一部分：DeepSeek 的基本概念

定义
DeepSeek 是一个结合了深度学习模型和高效信息检索技术的开源项目，旨在构建一个强大的智能搜索引擎。它支持对结构化、半结构化的数据以及文本数据进行高效检索，并且能够通过机器学习模型理解用户意图并提供更智能的搜索结果。
核心特点
- 多模态检索：DeepSeek 支持结合图像、音频等多模态数据进行检索，提升搜索结果的相关性。
- 大规模预训练：支持对大规模数据集（如 Web 文本、图像库等）进行预训练，以提高搜索效率和准确性。
- 实时搜索与离线索引：结合实时搜索模型（如 ChatGPT）和离线索引技术，实现高效的响应能力。

DeepSeek-R1

定义
DeepSeek-R1 是 DeepSeek 项目的一个特定版本或实现，通常指的是针对某个特定应用场景的优化版本。例如，它可能专注于对话系统、问答服务或其他需要实时交互的应用场景。
功能
- 智能搜索：通过深度学习模型理解用户需求，并在大规模数据集中快速检索相关结果。
- 实时对话支持：与自然语言处理（NLP）模型（如 ChatGPT）集成，支持与用户的实时对话和问答。
- 高效性能：通过优化索引技术和模型部署方式，实现低延迟、高响应率的搜索和对话服务。
部署流程
在本地部署 DeepSeek 通常需要以下步骤：
1. 预训练模型下载与安装：下载并安装所需的预训练模型。
2. 索引数据集：将大量结构化或半结构化的数据（如文本、图片等）存储到索引中，以便快速检索。
3. 后端服务部署：在本地部署深度学习推理服务（如 Llama 或其他工具），用于处理用户的搜索请求。
4. 前端界面开发：开发一个用户友好的搜索界面，与后端服务交互并展示检索结果。

第二部分：Ollama软件安装过程

为了在本地成功运行 DeepSeek R1，我们需要借助 Ollama。Ollama是基于Llama开发的开源项目，主要用于构建AI应用。它是一个专为在本地计算机上运行AI模型而设计的工具。

除了Ollama，还有很多其他的模型管理工具：

litellm - 简化大模型 API 调用的工具
litgpt - 一站式的 LLM 开发和部署工具
FastChat - 训练和评估大型语言模型的开放平台
GPT-SoVITS - 少样本语音转换和合成工具
open-interpreter - 让 LLM 在你的计算机上运行代码

步骤指南

系统环境要求
- 操作系统版本：Windows 10及以上、macOS Catalina及以上或Linux 2.0及以上。
下载和安装
- 下载Ollama官方发布的最新版本。
测试运行
- 在终端中执行简单的命令，确保能够正常工作。
```
ollama --version
```

总结

通过以上步骤，您现在可以熟练地在本地运行Ollama并进行基本设置。接下来我们将深入学习DeepSeek-R1的安装和配置。

第三部分：DeepSeek-R1安装过程

DeepSeek-R1 不同版本的信息对比表：

版本号	模型大小（B）	功能特点	硬件配置要求	适用场景
1.5b	1.5B	- 支持基础语言模型能力，适合单线程对话和简单的文本生成任务。	- CPU：至少4核；内存：8GB；显卡（可选）；支持NVIDIA显卡大小为30GB。	- 适用于个人用户、小型应用场景或低负载需求。
7b	7B	- 增加GPU加速功能，适合中等负载场景。	- CPU：至少8核；内存：32GB；显卡（可选）；支持NVIDIA显卡大小为40GB。	- 适用于企业级应用、中等负载对话和内容生成任务。
8b	8B	- 进一步优化，适合高并发场景。	- CPU：至少16核；内存：128GB；显卡（可选）；支持NVIDIA显卡大小为40GB。	- 适用于大型企业级应用、复杂任务处理和高用户数系统。
14b	14B	- 支持多任务并行处理，适合高负载场景。	- CPU：至少32核；内存：512GB；显卡（可选）；支持NVIDIA显卡大小为80GB。	- 适用于高用户数系统、复杂内容生成和高并发对话任务。
32b	32B	- 最新优化版本，具备最高性能。	- CPU：至少64核；内存：256GB；显卡（可选）；支持NVIDIA显卡大小为80GB。	- 适用于超大型企业应用、复杂任务处理和高端对话系统。
70b	70B	- 中大型模型，进一步优化后的大规模模型。	- CPU：至少128核；内存：1TB；显卡（可选）；支持NVIDIA显卡大小为160GB。	- 适用于高端对话系统、复杂内容生成和大规模任务处理。
8b	8B	- 最新版本，具备极致优化功能。	- CPU：至少256核；内存：4TB；显卡（可选）；支持NVIDIA显卡大小为160GB。	- 适用于高负载对话和复杂任务处理的大型企业级应用。

总结

选择合适的 DeepSeek-R1 模型版本需根据硬件资源、应用场景和负载需求进行权衡：

基础版（1.5B）：适合个人用户和轻量场景。
专业版（7B）：适合企业级应用和中等负载场景。
企业版（8B）：适合大型企业级应用和高用户数系统。

步骤指南

下载模型
- 去Ollama官网可以下载DeepSeek-R1模型。
打开终端，输入
```
ollama run deepseek-r1:7b
```

下载成功后就可以和模型交流了

第四部分：Chatbox安装过程

Chatbox 是与本地模型集成的常见工具，它是一个免费的桌面客户端。

除了Chatbox，还有很多其他的模型GUI工具：

AnythingLLM - AnythingLLM 是 Mintplex Labs Inc. 开发的一款可以与任何内容聊天的私人 ChatGPT，是高效、可定制、开源的企业级文档聊天机器人解决方案。它能够将任何文档、资源或内容片段转化为大语言模型（LLM）在聊天中可以利用的相关上下文。
Open-WebUI - Open-WebUI是一个可扩展、功能丰富且用户友好的自托管人工智能平台，设计上完全离线运行。它支持各种大语言模型（LLM）执行器，如 Ollama和兼容OpenAI的APIs ，并内置了用于检索增强生成（RAG）的推理引擎，使其成为一个强大的AI部署解决方案。
Page Assist - Page Assist 是一款专为开发者设计的开源浏览器扩展，赋能用户在浏览器环境中直接调用本地AI 模型（如Ollama、Gemini Nano 等），通过创新的侧边栏和Web UI 实现网页上下文智能交互。

步骤指南

下载和安装
- 下载Chatbox官方的应用程序或服务包（如GitHub仓库）。
配置Chatbox
进入对话界面
- 在Chatbox界面中输入问题，观察模型的响应。

总结

通过以上步骤，您现在可以成功配置和运行Chatbox，与模型进行交互。掌握这些技能后，您可以进一步扩展功能或优化性能。

第五部分：API 端点

Ollama 提供了一个 API 端点，用于以编程方式与 DeepSeek-R1 进行交互。

启动Ollama
在发出 API 请求之前，请确保 Ollama 服务器在本地运行。我们可以通过运行以下命令来启动服务器：
```
ollama serve
```

访问API

   curl -X POST http://localhost:11434/api/generate -d '{ 
     "model": "deepseek-r1:7b", 
     "prompt": "你好" 
   }'

API 方式