【大模型】大模型 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

原创

已于 2025-02-15 09:13:03 修改 · 1.2k 阅读

·

26

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #DeepSeek-R1 #deepseek-ai #推理模型

于 2025-02-15 09:11:41 首次发布

【大模型】大模型 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1 模型介绍
Model Summary
- 后训练：在基础模型上进行大规模强化学习
- 蒸馏：小模型也可以很强大
下载
DeepSeek-R1-Evaluation
Distilled Model Evaluation
github
模型运行示例
开源协议
参考

DeepSeek-R1 模型介绍

第一代推理模型 DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，它在推理任务上表现出色，且未经过监督微调（SFT）作为初步步骤。借助强化学习，DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。然而，DeepSeek-R1-Zero也面临一些挑战，例如无休止的重复、可读性差以及语言混合等问题。为了应对这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，该模型在进行强化学习之前引入了冷启动数据。DeepSeek-R1在数学、编程和推理任务上的表现与OpenAI-o1相当。为了支持研究社区，我们已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen从DeepSeek-R1蒸馏出的六个密集模型。其中，DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini，为密集模型创造了新的最佳性能记录。

性能

Model Summary

后训练：在基础模型上进行大规模强化学习

我们直接在基础模型上应用强化学习（RL），而不依赖于监督微调（SFT）作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链（CoT），从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了诸如自我验证、反思以及生成长思维链的能力，这标志着研究社区的一个重要里程碑。值得注意的是，它是首次公开研究验证，通过纯粹的强化学习（无需SFT）可以激励大型语言模型（LLM）的推理能力。这一突破为该领域的未来发展

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

szZack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。