DeepSeek-R1推理模型系列:突破传统范式的开源推理新标杆

DeepSeek-R1推理模型系列:突破传统范式的开源推理新标杆

【免费下载链接】DeepSeek-R1-Distill-Llama-8B 开源项目DeepSeek-RAI展示前沿推理模型DeepSeek-R1系列,经大规模强化学习训练,实现自主推理与验证,显著提升数学、编程和逻辑任务表现。我们开放了DeepSeek-R1及其精简版,助力研究社区深入探索LLM推理能力。【此简介由AI生成】 【免费下载链接】DeepSeek-R1-Distill-Llama-8B 项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-Distill-Llama-8B

1. 项目概述

DeepSeek-R1系列作为新一代推理模型的开创性成果,包含DeepSeek-R1-Zero与DeepSeek-R1两个核心版本。其中DeepSeek-R1-Zero首次实现了在无监督微调(SFT)前提下,直接通过大规模强化学习(RL)训练基础模型,成功激发出模型的自验证、反思能力及长链思维(CoT)生成等高级推理行为。该模型虽展现出卓越的问题解决潜力,但存在输出重复、可读性不足及语言混用等问题。

为解决上述缺陷并进一步提升性能,DeepSeek-R1在RL训练前创新性引入冷启动数据,通过"双RL+双SFT"的四阶段训练流水线,使模型在数学、代码及综合推理任务上达到与OpenAI-o1相当的性能水平。作为开源贡献,团队同步发布了基础模型及基于Llama、Qwen架构蒸馏的6个轻量化版本,其中DeepSeek-R1-Distill-Qwen-32B在多 benchmark 中超越OpenAI-o1-mini,刷新稠密模型性能纪录。

2. 技术架构解析

创新训练范式:无SFT强化学习的推理突破

项目核心突破在于验证了纯强化学习培育推理能力的可行性。通过直接在基础模型上部署大规模RL训练,DeepSeek-R1-Zero自发形成了多样化推理行为,成为业界首个无需SFT即可通过RL激发LLM推理能力的开源研究。这一发现颠覆了传统"预训练→SFT→RLHF"的三段式训练认知,为推理模型开发提供了全新技术路径。

DeepSeek-R1的进阶训练流程融合两大RL阶段与两大SFT阶段:前者专注于探索优化推理模式与对齐人类偏好,后者则分别奠定模型的推理基础能力与非推理任务表现。这种复合流水线设计被证明能有效解决纯RL模型的输出质量问题,同时保留其强大的问题解决能力。

高效知识蒸馏:小模型的推理能力跃迁

研究团队通过知识蒸馏技术,成功将大模型的推理模式迁移至小规模架构。实验表明,相比直接在小模型上进行RL训练,采用大模型生成的优质推理数据进行蒸馏,能获得更优性能。这种"以大育小"的策略使轻量化模型在保持部署效率的同时,具备接近大模型的推理水准。

蒸馏版本涵盖1.5B至70B多尺寸规格,基于Qwen2.5与Llama3.1等主流开源架构优化,所有模型均开放微调配置与分词器参数,确保开发者可直接部署使用。

3. 模型资源与下载

基础模型系列

模型名称总参数量激活参数量上下文长度获取地址
DeepSeek-R1-Zero671B37B128KHuggingFace仓库
DeepSeek-R1671B37B128KHuggingFace仓库

注:两类模型均基于DeepSeek-V3-Base的MoE架构开发,具体技术细节可参考DeepSeek-V3项目文档。

蒸馏模型系列

模型名称基础架构获取地址
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5BHuggingFace仓库
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BHuggingFace仓库
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8Bhttps://gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14BHuggingFace仓库
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32BHuggingFace仓库
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-InstructHuggingFace仓库

所有蒸馏模型均使用DeepSeek-R1生成的高质量推理样本进行微调,建议采用官方提供的配置参数运行以获得最佳效果。

4. 性能评估结果

主模型综合能力测试

评估采用最大32,768 token生成长度,抽样任务使用temperature=0.6、top-p=0.95的参数配置,通过单次查询生成64条响应计算pass@1指标。测试覆盖语言理解、数学推理、代码生成等多维度能力:

在英语任务中,MMLU (Pass@1) 达90.8分,仅次于OpenAI o1-1217的91.8分;MMLU-Redux (EM) 以92.9分刷新纪录;MMLU-Pro (EM) 84.0分领先同类模型。代码领域表现尤为突出,LiveCodeBench (Pass@1-COT) 取得65.9分,超过OpenAI o1-1217的63.4分;Codeforces评测中获得96.3分percentile与2029分rating,接近o1-1217的顶尖水平。

数学推理方面,AIME 2024 (Pass@1) 达到79.8分,MATH-500 (Pass@1) 97.3分,CNMO 2024 (Pass@1) 78.8分,展现出强劲的复杂问题解决能力。中文任务中C-Eval (EM) 以91.8分位居榜首,CLUEWSC (EM) 92.8分保持领先优势。

蒸馏模型性能对比

轻量化模型在资源受限场景下表现卓越:DeepSeek-R1-Distill-Qwen-32B在AIME 2024中取得72.6分Pass@1,MATH-500达94.3分,LiveCodeBench 57.2分,Codeforces rating 1691分,全面超越QwQ-32B-Preview等同类模型。

1.5B小模型展现出惊人效率:DeepSeek-R1-Distill-Qwen-1.5B在MATH-500仍保持83.9分,Codeforces rating达954分,适合边缘计算环境部署。7B/14B版本在性能与效率间取得平衡,其中Qwen-7B版本MATH-500达92.8分,14B版本AIME 2024得分69.7分,接近o1-mini水平。

5. 部署与使用指南

官方交互渠道

用户可通过DeepSeek官方网站体验模型能力,在chat.deepseek.com平台启用"DeepThink"功能即可调用R1模型。开发者可通过platform.deepseek.com获取OpenAI兼容的API服务。

本地部署教程

基础模型部署需参考DeepSeek-V3项目文档,蒸馏模型可直接通过vLLM或SGLang启动服务。以DeepSeek-R1-Distill-Qwen-32B为例:

使用vLLM部署命令:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

使用SGLang部署命令:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

PaddlePaddle快速调用示例:

from paddlenlp.transformers import AutoTokenizer
from paddlenlp.transformers.qwen2.modeling import Qwen2ForCausalLM
import paddle

paddle.set_device("gpu" if paddle.is_compiled_with_cuda() else "cpu")

model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = Qwen2ForCausalLM.from_pretrained(model_name, dtype="float16")
model.eval()

prompt = "求解方程:x² + 5x + 6 = 0"
messages = f"Human: {prompt}\n\nAssistant: Let me think about this step by step.\n"
inputs = tokenizer(messages, return_tensors="pd", padding=True, truncation=True, max_length=2048)
outputs = model.generate(**inputs, max_new_tokens=1024, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

建议运行前查阅项目"Usage Recommendation"章节,了解硬件配置要求与优化参数设置。

6. 研究价值与行业影响

DeepSeek-R1系列的开源发布为推理模型研究提供了重要基准。纯RL训练范式的验证、多阶段训练流水线的设计、高效知识蒸馏技术的应用,共同构成了一套完整的推理模型开发方法论。多样化的模型规格满足从学术研究到产业落地的全场景需求,37B激活参数的MoE架构平衡了性能与计算成本,轻量化版本则推动推理能力向资源受限环境普及。

随着模型在数学推理、代码生成等专业领域的突破性表现,DeepSeek-R1有望成为科研机构与企业开发垂直领域AI助手的基础组件。项目团队持续优化训练技术,未来计划探索更大规模模型的推理能力边界,以及多模态推理、领域知识融合等前沿方向。

【免费下载链接】DeepSeek-R1-Distill-Llama-8B 开源项目DeepSeek-RAI展示前沿推理模型DeepSeek-R1系列,经大规模强化学习训练,实现自主推理与验证,显著提升数学、编程和逻辑任务表现。我们开放了DeepSeek-R1及其精简版,助力研究社区深入探索LLM推理能力。【此简介由AI生成】 【免费下载链接】DeepSeek-R1-Distill-Llama-8B 项目地址: https://ai.gitcode.com/hf_mirrors/deepseek-ai/DeepSeek-R1-Distill-Llama-8B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值