【保姆级 - 大模型应用开发】DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

在这里插入图片描述

DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

想部署 DeepSeek-R1 模型到本地,开启高性能推理体验?本文汇总了 Ollama、vLLM 及原生 PyTorch 的部署方法,适合不同开发者需求。


🎯 下载模型 (必做) ---- 模型选择指南

目前 DeepSeek 已开源多个蒸馏模型,资源占用低,推理能力强:

模型名参数量显存需求下载地址
DeepSeek-R1-Distill-Qwen-1.5B1.5B1~2GB点击下载
DeepSeek-R1-Distill-Qwen-7B7B6~8GB点击下载
DeepSeek-R1-Distill-Llama-70B70B96~128GB点击下载
  • 下载完成后可以任选以下三种方式之一进行部署使用 (记住你的下载路径)

✅ 方式一:Ollama 本地部署(最简单)

Step 1:安装 Ollama

Windows 用户:

直接访问官网下载安装:https://ollama.com

Linux/macOS 用户:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2:下载并运行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 会自动处理环境配置,适合零基础用户快速尝试。


✅ 方式二:vLLM 部署(推荐中高端 GPU)

Step 1:安装 vLLM

pip install vllm

Step 2:运行模型

vllm serve <模型路径> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
参数含义推荐值
<模型路径>模型所在的本地文件夹/root/models/deepseek-r1-distill-qwen-7b-gptq
--tensor-parallel-size启用的 GPU 数量(单卡填 1)1
--max-model-len最大上下文长度(Token 数)4096 ~ 32768
--quantization指定量化类型gptq
--dtype中间计算精度half(FP16)
--enforce-eager禁用 CUDA Graph,加快加载稳定性建议保留

📌 如果显存较小(如 8GB),建议将 --max-model-len 改为 4096 或更小。


✅ 方式三:PyTorch 原生部署(灵活可控)

from modelscope import AutoModelForCausalLM, AutoTokenizer

# 模型路径:请替换为你自己的本地路径
model_path = "/root/models/deepseek-r1-distill-qwen-7b"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="cuda"  # 支持自动切换为 CPU
)

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 构建 prompt
messages = [
    {"role": "system", "content": "你是一个乐于助人的编程专家"},
    {"role": "user", "content": "请用 Python 实现快速排序"}
]

# 转换为对话输入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)

# 解码输出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 运行环境依赖:

pip install torch modelscope

🧠 对比总结

方法优点缺点适合人群
Ollama零配置、简单易用功能有限小白/入门
vLLM高性能、支持量化显存要求高中高级用户
PyTorch灵活自由需懂代码开发者/研究人员

🧩 提示建议

  • Ollama 支持断网运行,适合离线环境。
  • 建议使用蒸馏模型部署,节省资源,效果不打折。
  • 复杂推理场景推荐使用 R1-32B 或以上版本。

在这里插入图片描述

DeepSeek 开源生态发展迅猛,模型性能媲美 GPT-4o,部署简单灵活,非常适合本地化大模型应用实践。动手部署一把,感受 LLM 的强大推理力量!

内容概要:本文详细介绍了 DeepSeek 大语言模型的本地部署方法,旨在帮助用户在本地环境中高效、稳定地使用 DeepSeek 模型,并保障数据的安全性。文章首先解释了本地部署的优势,包括处理私密数据、节省 API 调用费用、与本地工作结合等。接着,文章按步骤详细讲解了本地部署的具体操作,包括环境准备、安装依赖、创建虚拟环境、安装 PyTorch、克隆代码库、安装项目依赖、下载预训练模型、配置环境变量、运行模型、测试模型等。此外,还提供了简化版的本地部署方法——使用 Ollama 工具,适用于 Windows 系统用户。最后,介绍了可的 Open-WebUI 图形界面安装,以提升用户体验。 适合人群:具备一定计算机基础和技术能力的用户,特别是对数据隐私有较高要求的企业和个人,以及需要频繁使用 DeepSeek 模型的开发者和研究人员。 使用场景及目标:① 适用于需要在本地环境中高效运行 DeepSeek 模型的用户,确保数据安全和隐私保护;② 适用于希望通过本地部署降低成本、提高灵活性和效率的用户;③ 适用于希望在开源模型基础上进行个性化定制和技术开发的用户。 其他说明:本文不仅提供了详细的图文步骤,还涵盖了种操作系统和工具的择,确保不同背景的用户都能顺利完成本地部署。对于遇到问题的用户,建议查阅相关文档或在技术论坛上寻求帮助。
### 如何使用Ollama和GGUF格式离线加载DeepSeek R1本地模型 为了实现通过Ollama框架以及GGUF格式来离线加载DeepSeek R1模型,以下是详细的说明: #### 准备工作 首先需要安装并配置好Ollama工具链。可以通过以下命令完成Ollama的安装: ```bash curl https://ollama.ai/install.sh | sh ``` 此脚本会自动检测操作系统环境,并下载适合版本的二进制文件[^3]。 接着验证安装是否成功: ```bash ollama --version ``` #### 下载DeepSeek R1模型 由于目标是离线部署,因此需提前获取DeepSeek R1模型文件。访问官方仓库或者可信第三方资源站点下载对应架构下的预训练权重文件。通常这些文件会被打包成`.bin`或压缩包形式提供给开发者使用[^4]。 注意:如果引用中的链接指向特定软件组件而非所需AI模型,则应忽略那些无关信息而专注于寻找正确的模型源地址。 #### 转换至GGUF格式 一旦获得原始模型参数集之后,下一步就是将其转换成为兼容于OLLAMA运行时所支持的数据交换标准——即General Graph Format Unified (GGUF)[^5]。这一步骤可能涉及编写自定义脚本来解析原生结构并将之映射到新的表示方法上;也可能利用现成库函数简化过程。 假设存在这样一个Python脚本用于执行上述操作: ```python from transformers import AutoModelForCausalLM, AutoTokenizer import gguf_utils # 假设这是处理gguf的相关模块 model_name_or_path = "path/to/deepseek-r1" output_gguf_file = "./deepseek_r1.gguf" # 加载HuggingFace上的PyTorch模型实例及其配套词表 model = AutoModelForCausalLM.from_pretrained(model_name_or_path) tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) # 使用假定存在的工具类封装逻辑保存为gguf格式 gguf_utils.save_model_as_gguf(model=model, tokenizer=tokenizer, output_filepath=output_gguf_file) ``` #### 部署与测试 最后,在完成了必要的前期准备活动以后就可以尝试启动服务端程序并通过API接口发起请求来进行推理计算了。例如可以这样调用刚刚创建好的LLM应用: ```bash ollama run deepseek-r1 --file ./deepseek_r1.gguf ``` 以上便是关于怎样借助Ollama平台配合GGUF序列化机制达成对DeepSeek系列大语言模型实施本地化管理的一般流程概述[^6]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值