【保姆级 - 大模型应用开发】DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

DeepSeek R1 本地部署多选方案攻略
部署运行你感兴趣的模型镜像

在这里插入图片描述

DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

想部署 DeepSeek-R1 模型到本地,开启高性能推理体验?本文汇总了 Ollama、vLLM 及原生 PyTorch 的部署方法,适合不同开发者需求。


🎯 下载模型 (必做) ---- 模型选择指南

目前 DeepSeek 已开源多个蒸馏模型,资源占用低,推理能力强:

模型名参数量显存需求下载地址
DeepSeek-R1-Distill-Qwen-1.5B1.5B1~2GB点击下载
DeepSeek-R1-Distill-Qwen-7B7B6~8GB点击下载
DeepSeek-R1-Distill-Llama-70B70B96~128GB点击下载
  • 下载完成后可以任选以下三种方式之一进行部署使用 (记住你的下载路径)

✅ 方式一:Ollama 本地部署(最简单)

Step 1:安装 Ollama

Windows 用户:

直接访问官网下载安装:https://ollama.com

Linux/macOS 用户:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2:下载并运行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 会自动处理环境配置,适合零基础用户快速尝试。


✅ 方式二:vLLM 部署(推荐中高端 GPU)

Step 1:安装 vLLM

pip install vllm

Step 2:运行模型

vllm serve <模型路径> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
参数含义推荐值
<模型路径>模型所在的本地文件夹/root/models/deepseek-r1-distill-qwen-7b-gptq
--tensor-parallel-size启用的 GPU 数量(单卡填 1)1
--max-model-len最大上下文长度(Token 数)4096 ~ 32768
--quantization指定量化类型gptq
--dtype中间计算精度half(FP16)
--enforce-eager禁用 CUDA Graph,加快加载稳定性建议保留

📌 如果显存较小(如 8GB),建议将 --max-model-len 改为 4096 或更小。


✅ 方式三:PyTorch 原生部署(灵活可控)

from modelscope import AutoModelForCausalLM, AutoTokenizer

# 模型路径:请替换为你自己的本地路径
model_path = "/root/models/deepseek-r1-distill-qwen-7b"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="cuda"  # 支持自动切换为 CPU
)

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 构建 prompt
messages = [
    {"role": "system", "content": "你是一个乐于助人的编程专家"},
    {"role": "user", "content": "请用 Python 实现快速排序"}
]

# 转换为对话输入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)

# 解码输出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 运行环境依赖:

pip install torch modelscope

🧠 对比总结

方法优点缺点适合人群
Ollama零配置、简单易用功能有限小白/入门
vLLM高性能、支持量化显存要求高中高级用户
PyTorch灵活自由需懂代码开发者/研究人员

🧩 提示建议

  • Ollama 支持断网运行,适合离线环境。
  • 建议使用蒸馏模型部署,节省资源,效果不打折。
  • 复杂推理场景推荐使用 R1-32B 或以上版本。

在这里插入图片描述

DeepSeek 开源生态发展迅猛,模型性能媲美 GPT-4o,部署简单灵活,非常适合本地化大模型应用实践。动手部署一把,感受 LLM 的强大推理力量!

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值