DeepSeek R1 Ollama本地化部署全攻略：三步实现企业级私有化大模型部署

最新推荐文章于 2025-02-25 18:03:32 发布

Coderabo

最新推荐文章于 2025-02-25 18:03:32 发布

阅读量1.7w

点赞数 52

文章标签： DeepSeek R1 Ollama

本文链接：https://blog.youkuaiyun.com/tombosky/article/details/145387753

版权

前言

Ollama作为当前最受欢迎的本地大模型运行框架，为DeepSeek R1的私有化部署提供了便捷高效的解决方案。本文将深入讲解如何将Hugging Face格式的DeepSeek R1模型转换为Ollama支持的GGUF格式，并实现企业级的高可用部署方案。文章包含完整的量化配置、API服务集成和性能优化技巧。

— 在这里插入图片描述

一、基础环境搭建

1.1 系统环境要求

操作系统：Ubuntu 22.04 LTS或CentOS 8+（需支持AVX512指令集）
硬件配置：
- GPU版本：NVIDIA驱动520+，CUDA 11.8+
- CPU版本：至少16核处理器，64GB内存
存储空间：原始模型需要30GB，量化后约8-20GB

1.2 依赖安装

# 安装基础编译工具
sudo apt install -y cmake g++ python3-dev

# 安装Ollama核心组件
curl -fsSL https://ollama.com/install.sh | sh

# 安装模型转换工具
pip install llama-cpp-python[server] --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu

二、模型格式转换

2.1 原始模型下载

使用官方模型仓库获取授权：

huggingface-cli download deepseek-ai/deepseek-r1-7b-chat \
  --revision v2.0.0 \
  --token hf_YourTokenHere \
  --local-dir ./deepseek-r1-original \
  --exclude "*.safetensors"

2.2 GGUF格式转换

创建转换脚本convert_to_gguf.py：

from llama_cpp import Llama
from transformers import AutoTokenizer

# 原始模型路径
model_path = "./deepseek-r1-original"

# 转换为GGUF格式
llm = Llama(
    model_path=model_path,
    n_ctx=4096,
    n_gpu_layers=35,  # GPU加速层数
    verbose=True
)

# 保存量化模型
llm.save_gguf(
    "deepseek-r1-7b-chat-q4_k_m.gguf",
    quantization="q4_k_m",  # 4bit混合量化
    vocab_only=False
)

# 保存专用tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path)
tokenizer.save_pretrained("./ollama-deepseek/tokenizer")

三、Ollama模型配置

3.1 Modelfile编写

创建Ollama模型配置文件：

# deepseek-r1-7b-chat.Modelfile
FROM ./deepseek-r1-7b-chat-q4_k_m.gguf

# 系统指令模板
TEMPLATE """
{
   {
   - if .System }}<|system|>
{
   {
    .System }}</s>{
   {
    end -}}
<|user|>
{
   {
    .Prompt }}</s>
<|assistant|>
"""

# 参数设置
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER repeat_penalty 1.1
PARAMETER num_ctx 4096

<