【手把手】DeepSeek-R1本地部署：从零到API调用

alena_citc

已于 2025-03-02 11:59:46 修改

阅读量5.5k

点赞数 1

文章标签：算法人工智能

于 2025-02-01 17:25:33 首次发布

本文链接：https://blog.youkuaiyun.com/chuweiyan/article/details/145413589

版权

DeepSeek+LangChain与LangGraph实战专栏收录该内容

9 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

deepseek官网
可以通过访问这个官网获取关于 DeepSeek 大模型的详细信息，包括其功能特性、技术更新、应用案例等。官网是获取官方且权威信息的重要渠道，在这里你能够了解到 DeepSeek 模型的最新动态，例如新发布的版本、改进的性能指标等内容。同时，官网也可能会提供一些使用教程和 API 文档，方便开发者将 DeepSeek 集成到自己的项目中。

一、什么是deepseek-r1

DeepSeek-R1 是 DeepSeek 研发的系列推理模型，2025 年 1 月 20 日，DeepSeek 正式发布 DeepSeek-R1 模型，并同步开源模型权重，且推出了 API 服务。

二、deepseek-r1的功能和性能特点

训练方式：使用强化学习训练，在后训练阶段大规模运用强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。
推理过程：包含大量反思和验证，思维链长度可达数万字。
性能表现：在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 OpenAI o1-preview 的推理效果，为用户展现了 o1 没有公开的完整思考过程；在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版；DeepSeek-R1-Lite 预览版模型在美国数学竞赛（AMC）中难度等级最高的 AIME 以及全球顶级编程竞赛（codeforces）等评测中，超越了 GPT-4o 等模型。
模型架构：具备 6700 亿参数，采用专家混合架构（MoE），可高效处理海量数据，输入的上下文长度高达 128000 个 Token。
成本优势：以 1/50 的价格表现出不输 OpenAI o1 的性能。

三、本地安装ollama

Ollama 是一个基于 Go 语言开发的简单易用的本地大语言模型运行框架。可以将其类比为 docker，就像 Docker 能够轻松地打包、分发和运行各种应用程序容器一样，Ollama 能让用户在本地环境中方便地管理和运行不同的大语言模型。

ollama官网：https://ollama.com/
直接点击官网页面上的下载按钮，网站会根据你所使用的操作系统自动检测并提供相应版本的 Ollama 进行下载。这意味着无论你使用的是 Windows、Mac 还是 Linux 系统，都能快速获取到适合自己系统的安装包。下载完成后，按照系统的安装提示进行操作，通常只需简单的几步点击，就能完成 Ollama 的安装。

ollama安装方式

macOS：访问ollama 官网下载 mac 安装包，双击安装包即可完成安装。
Linux：可使用命令curl https://ollama.ai/install.sh | sh进行快速安装，也可在 Ubuntu 等系统中通过 apt 安装。
Windows：访问ollama 官网下载 windows 安装包，双击安装包即可完成安装。
Docker：拉取镜像docker pull ollama/ollama，运行容器docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama。

ollama特点:

本地部署：用户可在自己设备上运行模型，保护数据隐私，无需将数据发送到第三方服务。
多系统支持：支持 Mac、Linux 和 Windows 操作系统，方便不同系统用户安装使用。
多模型支持：涵盖多种流行的 LLM 模型，如 Llama、Falcon、Qwen2、Phi3、Gemma2 等，用户可按需选择。
使用便捷：提供直观命令行界面，操作简单，上手容易，还提供了一个简洁的 API，便于开发者创建、运行和管理模型实例。
可扩展性强：支持自定义配置，用户能根据硬件环境和模型需求优化。代码简洁，资源占用少，可通过安装插件增加新功能。
开源免费：代码完全开放，用户可自由查看、修改和分发，降低了使用成本。

ollama功能：

模型管理：能方便地下载、更新和管理各种语言模型，将模型权重、配置和数据捆绑到一个叫 Modelfile 的包中，优化设置和配置细节，包括 GPU 使用情况。
本地运行：在无网络连接时，若模型已加载到本地内存，仍可进行如文本生成等操作，不受网络波动影响，适用于网络信号差的环境，能更好地保护数据隐私，适合处理企业内部敏感文档等。

四、安装deepseek

在本地运行命令 ollama run deepseek-r1:7b

具体可以到 Ollama 网站的模型页面里面查看所有支持的模型规格和详细信息。在模型下载过程中，终端会显示下载进度，下载完成后，你就可以在终端里输入问题向 DeepSeek 模型提问了。经过实际测试，7B 模型适合中等规模的文本处理任务，例如对一篇几千字的文章进行总结、对常见的业务文档进行理解和问答等。如果你的电脑配置较高，建议安装 14B 或 32B 模型，以获得更好的处理效果和性能表现。

需要注意的是支持可选模型规格参数。PC 本地且推理能力较强推荐用 1.5b，7b，8b，14b 模型。你也可以通过添加参数的方式来下载其它模型，例如命令：ollama run deepseek - r1:8b。具体可以到 Ollama 网站的模型里面查看。

根据不同的电脑配置，我们可以选择合适的模型规格：

1、电脑配置有限：如果你的电脑硬件资源相对较少，例如只有单张消费级显卡（像常见的 NVIDIA GTX 系列显卡），推荐使用 1.5B 或 7B 模型。这些较小规模的模型对硬件资源的需求较低，能够在有限的计算能力下相对流畅地运行。例如，在一些普通配置的笔记本电脑上，运行 7B 模型进行简单的文本问答任务时，虽然速度可能不会特别快，但也能满足基本的使用需求。
2、追求更高的性能：当你拥有多 GPU 配置（比如两台 NVIDIA RTX 系列显卡通过 SLI 或 CrossFire 技术连接）时，可以选择 14B 或 32B 模型。这些较大规模的模型具有更强的语言理解和生成能力，能够处理更复杂的任务，如长篇文章的生成、复杂语义的分析等。在处理大规模文本数据时，14B 或 32B 模型能够展现出更出色的性能和准确性。
3、高端计算环境：对于拥有多张高端 GPU（如专业的 NVIDIA A100 显卡集群）的高端计算环境，你可以选择 70B 模型。70B 模型是规模非常大的模型，具有极其强大的语言处理能力，但同时也需要大量的计算资源和内存支持。它适合处理对精度和性能要求极高的任务，如大规模的知识图谱构建、复杂的自然语言推理等。

总结一下：

电脑配置有限：推荐使用 1.5B 或 7B 模型，可以在单张消费级显卡上运行。
更高的性能：可以选择 14B 或 32B 模型，但需要多 GPU 配置。
高端计算环境：可以选择 70B 模型，需要多张高端 GPU 支持。

模型下载完毕后就可以在终端里输入问题提问了。实测 7B 适合中等规模的文本处理，如果你的电脑配置较高，建议安装 14B 或 32B 模型。

五、安装webui插件

为了更方便地与 DeepSeek 模型进行交互，我们可以安装 Page Assist 这个 webui 插件。

搜索插件 Page Assist

https://www.crxsoso.com/webstore/detail/jfgfiigpkhlkbnfnbobbkinehhfdhndo

在这里插入图片描述

插件安装步骤

打开 Chrome 浏览器，在该网站上找到 Page Assist 插件的下载页面。在页面上通常会有一个可以拖动的插件图标，直接用鼠标左键点击并按住这个图标，然后将其拖动到 Chrome 浏览器的窗口中。此时，浏览器会弹出一个确认安装的提示框，点击 “添加扩展程序” 按钮，等待一段时间，插件就会安装成功。

打开chrome浏览器直接拖拽到chrome浏览器中，安装插件成功，打开插件即可查看。
在这里插入图片描述
安装成功后，在 Chrome 浏览器的扩展程序栏中会出现 Page Assist 插件的图标。点击这个图标，就可以打开插件界面，在这个界面中你可以更直观、便捷地与本地运行的 DeepSeek 模型进行交互，向模型输入问题并查看回答，操作更加友好和方便。
通过以上步骤，你就可以在本地环境中安装 Ollama、DeepSeek 模型以及 webui 插件，实现便捷的大语言模型使用体验。

六、调用本地deepseek的api

要调用本地部署的 DeepSeek 模型的 API，以下是详细步骤：

前提条件

模型部署：已经在本地成功部署了 DeepSeek 模型，并且 API 服务处于运行状态。
工具安装：安装了可以发送 HTTP 请求的工具，如 Python 的requests库（用于 Python 脚本调用）或者 Postman（用于可视化测试）。

使用 Python 调用 API

安装requests库
如果还没有安装requests库，可以使用以下命令进行安装：

pip install requests

编写 Python 代码
以下是一个示例代码，展示了如何调用本地部署的 DeepSeek 模型的 API：

import requests
import json

# 假设本地API的地址和端口，根据实际情况修改
api_url = "http://localhost:11434/api/generate"

# 请求的JSON数据
data = {
    "model": "deepseek-model-name",  # 替换为实际使用的DeepSeek模型名称
    "prompt": "你想要向模型提出的问题或输入的文本",
    "stream": false  # 如果不需要流式响应，可以设置为false
}

# 发送POST请求
response = requests.post(api_url, json=data)

# 检查响应状态
if response.status_code == 200:
    result = response.json()
    print(result["response"])
else:
    print(f"请求失败，状态码: {response.status_code}，错误信息: {response.text}")

代码解释
API 地址：api_url需要根据本地 API 服务的实际地址和端口进行修改。
请求数据：data字典中包含了请求的关键信息，model指定要使用的模型名称，prompt是要输入给模型的文本，stream用于控制是否使用流式响应。
发送请求：使用requests.post方法发送 POST 请求，并将请求数据以 JSON 格式传递。
处理响应：检查响应的状态码，如果为 200，则表示请求成功，提取并打印模型的响应结果；否则，打印错误信息。

使用 Postman 调用 API

打开 Postman
启动 Postman 应用程序。
创建新请求
点击 “New” 按钮，选择 “Request”。
为请求命名，并选择请求方法为 “POST”。
设置请求 URL
在 URL 输入框中输入本地 API 的地址，例如http://localhost:11434/api/generate。
设置请求头
在 “Headers” 选项卡中，添加一个新的头信息：
Key：Content-Type
Value：application/json
设置请求体
在 “Body” 选项卡中，选择 “raw”，并将数据格式设置为 “JSON”。然后输入以下 JSON 数据：

{
    "model": "deepseek-model-name",
    "prompt": "你想要向模型提出的问题或输入的文本",
    "stream": false
}

根据实际情况替换deepseek-model-name和prompt的值。

在这里插入图片描述

发送请求
点击 “Send” 按钮发送请求，Postman 将显示模型的响应结果。

注意事项

模型名称：确保使用的模型名称与本地部署的 DeepSeek 模型名称一致。
API 端口：如果本地 API 服务使用的不是默认端口（如 11434），需要相应地修改 API 地址。
错误处理：如果请求失败，检查 API 服务是否正常运行，以及请求数据是否正确。