【大模型】 大模型 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1 模型介绍
第一代推理模型 DeepSeek-R1-Zero和DeepSeek-R1。
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,它在推理任务上表现出色,且未经过监督微调(SFT)作为初步步骤。借助强化学习,DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero也面临一些挑战,例如无休止的重复、可读性差以及语言混合等问题。为了应对这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,该模型在进行强化学习之前引入了冷启动数据。DeepSeek-R1在数学、编程和推理任务上的表现与OpenAI-o1相当。为了支持研究社区,我们已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen从DeepSeek-R1蒸馏出的六个密集模型。其中,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini,为密集模型创造了新的最佳性能记录。
-
性能
Model Summary
后训练:在基础模型上进行大规模强化学习
- 我们直接在基础模型上应用强化学习(RL),而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了诸如自我验证、反思以及生成长思维链的能力,这标志着研究社区的一个重要里程碑。值得注意的是,它是首次公开研究验证,通过纯粹的强化学习(无需SFT)可以激励大型语言模型(LLM)的推理能力。这一突破