【保姆级 - 大模型应用开发】DeepSeek R1 本地部署全攻略：Ollama + vLLM + PyTorch 多选方案

在这里插入图片描述

DeepSeek R1 本地部署全攻略：Ollama + vLLM + PyTorch 多选方案

想部署 DeepSeek-R1 模型到本地，开启高性能推理体验？本文汇总了 Ollama、vLLM 及原生 PyTorch 的部署方法，适合不同开发者需求。

🎯 下载模型 (必做) ---- 模型选择指南

目前 DeepSeek 已开源多个蒸馏模型，资源占用低，推理能力强：

模型名	参数量	显存需求	下载地址
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	1~2GB	点击下载
DeepSeek-R1-Distill-Qwen-7B	7B	6~8GB	点击下载
DeepSeek-R1-Distill-Llama-70B	70B	96~128GB	点击下载

下载完成后可以任选以下三种方式之一进行部署使用 (记住你的下载路径)

✅ 方式一：Ollama 本地部署（最简单）

Step 1：安装 Ollama

Windows 用户：

直接访问官网下载安装：https://ollama.com

Linux/macOS 用户：

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2：下载并运行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 会自动处理环境配置，适合零基础用户快速尝试。

✅ 方式二：vLLM 部署（推荐中高端 GPU）

Step 1：安装 vLLM

pip install vllm

Step 2：运行模型

vllm serve <模型路径> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager

参数	含义	推荐值
`<模型路径>`	模型所在的本地文件夹	`/root/models/deepseek-r1-distill-qwen-7b-gptq`
`--tensor-parallel-size`	启用的 GPU 数量（单卡填 1）	`1`
`--max-model-len`	最大上下文长度（Token 数）	`4096 ~ 32768`
`--quantization`	指定量化类型	`gptq`
`--dtype`	中间计算精度	`half`（FP16）
`--enforce-eager`	禁用 CUDA Graph，加快加载稳定性	建议保留

📌 如果显存较小（如 8GB），建议将 --max-model-len 改为 4096 或更小。

✅ 方式三：PyTorch 原生部署（灵活可控）

from modelscope import AutoModelForCausalLM, AutoTokenizer

# 模型路径：请替换为你自己的本地路径
model_path = "/root/models/deepseek-r1-distill-qwen-7b"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="cuda"  # 支持自动切换为 CPU
)

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 构建 prompt
messages = [
    {"role": "system", "content": "你是一个乐于助人的编程专家"},
    {"role": "user", "content": "请用 Python 实现快速排序"}
]

# 转换为对话输入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)

# 解码输出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 运行环境依赖：

pip install torch modelscope

🧠 对比总结

方法	优点	缺点	适合人群
Ollama	零配置、简单易用	功能有限	小白/入门
vLLM	高性能、支持量化	显存要求高	中高级用户
PyTorch	灵活自由	需懂代码	开发者/研究人员