本地部署DeepSeek-R1模型

由于DeepSeek-R1已开源,在体验时候有几种方法,比如访问官网、本地化部署,基于模型的微调等。

  • 官方平台:访问官网(https://www.deepseek.com/ )直接试用基础功能。
  • API服务:开发者可通过API调用模型,输入Tokens成本低至1元/百万(缓存命中时),适合初创企业。
  • 本地化部署:使用Ollama或Hugging Face平台(https://huggingface.co/deepseek-ai)部署模型,支持Linux/Windows系统。
  • 模型微调:基于开源的660B参数模型(DeepSeek-R1-Zero),用户可针对垂直领域进行微调。
  • 蒸馏小模型:利用官方提供的蒸馏技术,将大模型压缩为1.5B~70B参数的小模型,适配移动端应用

本文介绍基于Ollama平台在本地部署DeepSeek-R1模型。


1、Ollama平台安装

Ollama 是一个专注于本地化部署和运行大型语言模型(LLM)的开源平台,旨在简化大模型的开发、管理与应用流程。Ollama的核心优势在于将LLM封装为轻量级Docker镜像,通过命令行工具和API实现模型的本地运行与管理。用户无需复杂配置即可在个人电脑或服务器上部署主流模型(如Llama3、Gemma、Mistral等),Ollama可以自动识别并优化硬件资源(如GPU),显著提升推理速度与效率。Ollama通过ollama run运行模型、ollama pull下载模型,ollama list查看已安装模型,ollama rm删除冗余模型。

官网下载地址:https://ollama.com/download/,支持Windows、Linux和macOS。

在这里插入图片描述

1)安装到指定目录
默认会安装在C盘,如果想指定安装到某个目录,可以使用如下命令在powershell终端执行:
.\OllamaSetup.exe /DIR=" D:\LLM\Ollama "
会强制将Ollama主程序安装到D:\Programs\Ollama目录下

在这里插入图片描述

2)指定默认模型下载路径

模型默认下载到C:\Users<用户名>.ollama\models下,可以通过指定环境变量将模型下载到指定的路径下。添加系统变量修改模型默认下载路径,变量名:OLLAMA_MODELS

在这里插入图片描述

若已下载模型需迁移,可直接将 C:\Users<用户名>.ollama\models 下的 blobs 和 manifests 文件夹复制到新路径,再重启 Ollama。

3)查看Ollama版本

安装完成后在powershell查看ollama版本信息,表示安装成功
PS D:\LLM> ollama -v ollama version is 0.5.7

2、安装DeepSeek-R1模型

Ollama支持的DeepSeek-R1参数版本包括以下多个规模,可根据硬件配置选择适合的模型:

  • 1.5B参数版:命令为 ollama run deepseek-r1:1.5b

    • 适用场景:轻量级任务,如简单文本编辑、基础问答、低资源环境下的测试场景。
    • 硬件需求:至少4GB内存,适合显存低于4GB的GPU或集成显卡
  • 7B参数版(默认版本,显存需求约6-8GB):直接运行 ollama run deepseek-r1 会默认加载7B版本,平衡性能与资源占用。

    • 适用场景:日常使用场景,如文本生成、简单代码调试、教育辅助问答等
    • 硬件需求:建议6GB以下显存,需4.7GB存储空间
  • 8B参数版(显存需求约10GB):命令为 ollama run deepseek-r1:8b

    • 适用场景:中等复杂度任务(如代码生成、逻辑推理),适用于Llama架构的蒸馏版模型。
    • 硬件需求:需约10GB显存,存储空间4.9GB
  • 14B参数版:命令为 ollama run deepseek-r1:14b

    • 适用场景:高级任务处理,如中等规模数据分析、教育领域复杂题目解析。
    • 硬件需求:显存建议12GB左右,存储空间9GB
  • 32B参数版(显存需求约24GB):命令为 ollama run deepseek-r1:32b。

    • 适用场景:专业用途,如代码生成、复杂问题解答,性能接近OpenAI o1-mini。
    • 硬件需求:需24GB左右显存,存储空间20GB
  • 70B参数版(最大规模,显存需求24GB+):命令为 ollama run deepseek-r1:70b,提供最高推理能力,需顶级显卡(如多卡配置)。

    • 适用场景:高性能需求任务,如专业领域知识问答、中大规模内容生成。
    • 硬件需求:需24GB+显存(如NVIDIA A100),存储空间43GB
  • 671B参数版(全尺寸模型,需极高资源):命令为 ollama run deepseek-r1:671b。

    • 适用场景:科研、商业决策分析、复杂逻辑推理等高精度需求场景。例如数学证明、编程任务解析、公司经营策略模拟等。。
    • 硬件需求:需多块高端GPU(如16张NVIDIA A100 80GB显卡),显存需1342GB以上,仅支持集群部署,普通用户难以本地运行

本文以deepseek-r1:8b模型为例进行本地化部署,电脑配置如下:

  • CPU:i5-7200U@2.50GHZ;4C
  • 内存:12G
  • 显卡:NVIDIA GeForce 940MX
  • 操作系统:Windows 10

1)下载deepseek-r1:8b模型

因为电脑配置,本地部署8B模型,在终端执行命令
ollama run deepseek-r1:8b

首次运行时,系统会自动下载 4.9GB 左右的模型文件,下载完成后执行命令
PS D:\LLM> ollama list NAME ID SIZE MODIFIED deepseek-r1:8b 28f8fd6cdc67 4.9 GB About an hour ago

2)运行deepseek-r1:8b模型

  • 介绍下自己,模型数据最新到2024年7月

在这里插入图片描述

我是DeepSeek-R1,一个由深度求索公司开发的智能助手,我擅长通过思考来帮您解答复杂的数学,代码和逻辑推理等理工类问题。我的知识截止到2024年7月,同时我也可以联网获取最新的信息。如果你有任何问题,随时告诉我,我会尽力提供帮助!

  • 这里的深度思考环节提示是ChatGPT的数据,可能拿了ChatGPT的数据做了训练

在这里插入图片描述

  • 计算20以内的素数推理过程

在这里插入图片描述

本地运行硬件配置有限,运行过于缓慢,目前只能这样了。

3、Chatbox图形化界面

如果更喜欢类似 ChatGPT 那样的可视化界面,可以安装 Chatbox AI。
官网地址:https://chatboxai.app/zh

在这里插入图片描述

下载完成后选择默认配置安装。安装完成后,连接本地模型,进入设置,在“模型设置”里选择:

  • API 类型:Ollama API
  • 模型名称:deepseek-r1:8b

在这里插入图片描述

  • 温度值:建议 0.3-0.7,数值越低,AI 回答越保守
  • 最大生成长度:建议 2048 tokens,这样回答更丰富

在这里插入图片描述

以上是DeepSeek-R1本地部署的过程,由于硬件资源限制,跑起来费力。


参考资料:

  1. https://www.cnblogs.com/WilliamB/p/18069441
  2. DeepSeek AI模型本地化部署全攻略
### 如何在 Python 本地环境部署 DeepSeek-R1 模型 为了在本地环境中成功部署 DeepSeek-R1 模型,可以采用基于 LM Studio 或者 Ollama 的方法。以下是具体的操作指南。 #### 使用 LM Studio 部署 DeepSeek-R1 LM Studio 提供了一个图形界面工具用于管理和运行大语言模型,适合希望简化配置流程的用户。 - **安装 LM Studio** 访问官方文档获取最新版本并按照指引完成软件包的安装过程[^2]。 - **下载 DeepSeek** 打开 LM Studio 后,在模型市场中搜索 `DeepSeek` 并选择合适的版本进行下载。考虑到硬件资源情况,可以选择较小规模如 1.5B 参数量级的变体以适应较低端设备的需求[^1]。 #### 利用 Ollama 实现本地部署 Ollama 是另一个流行的框架选项,它支持多种平台并且易于集成至现有项目当中。 - **设置 Ollama 环境** 参考官方网站说明来准备必要的依赖项以及执行初始化命令。 - **加载 DeepSeekOllama** 完成上述准备工作之后,通过指定 URL 获取预训练权重文件,并将其导入到 Ollama 中以便后续调用。 对于那些希望通过编程方式控制整个流程的技术人员来说,还可以考虑直接利用 Python API 来实现更灵活的功能定制: ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name_or_path = "path_to_deepseek_r1" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) def generate_response(prompt_text): inputs = tokenizer(prompt_text, return_tensors="pt") outputs = model.generate(**inputs) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response ``` 这段代码展示了怎样借助 Hugging Face Transformers 库快速搭建起一个简单的对话接口,允许开发者轻松测试不同大小的 DeepSeek-R1 版本性能表现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值