DeepSeek-R1如何用极简参数实现OpenAI级推理？

极道Jdon

于 2025-01-26 09:59:07 发布

阅读量1.1k

点赞数 12

文章标签： javascript reactjs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cfy_banq/article/details/145365505

版权

DeepSeek-R1：是如何让 OpenAI 级别的推理模型如此高效的？

最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩，在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做到了。所以，自然而然地，我不得不深入研究他们是如何做到这一点的。

免责声明：我只是一名对这项技术着迷的随机 ML 爱好者/开发者。我与 DeepSeek-AI 没有任何关系。只是分享我从阅读他们的研究论文和其他资料中学到的东西！

那么，秘诀是什么？
一切都与RL强化学习以及他们如何使用它有关。

大多数语言模型都结合了预训练、监督微调 (SFT)，然后使用一些 RL 来完善模型。
DeepSeek 的方法有所不同，正是这种差异带来了效率。
他们表明 LLM 能够仅使用 RL 就实现了推理。

打个比喻：
普通AI模型就像先背课本（预训练），再做模拟题（监督微调），最后刷真题（强化学习）。
但DeepSeek不走寻常路，直接让模型从零开始"打怪升级"——完全靠强化学习练就解题能力！

DeepSeek-R1-Zero：纯 RL 模型（纯野生学霸模式）：
他们从一个仅使用 RL 从头开始学习推理的模型开始！没有最初的监督训练。它通过反复试验来学习推理的艺术。

就像不报补习班的自学天才，完全不给参考答案

这意味着他们在没有任何标记数据的情况下训练了一个推理模型。这是一个概念证明，表明模型可以仅通过它们通过行动（反应）获得的激励（奖励）来学习推理。

每解一道题就获得"积分奖励"，做错了就自己复盘

该模型还可以自我进化。它会利用之前的思考步骤，随着时间的推移不断改进。

还能记住之前的解题思路，像整理错题本一样持续进化

DeepSeek-R1：优化的管道：
但是，DeepSeek-R1-Zero 模型存在问题࿰

最低0.47元/天解锁文章

博客等级

码龄19年

340
原创

2215
点赞

2359
收藏

1618
粉丝

关注

私信

热门文章

分类专栏

最新评论

VMware被收购裁员对Spring框架有影响吗？
组合缺一: 推荐：Solon 是另一个 Java 语言的生态型应用开发框架，也是 DI 架构，国产。
Clace和sqlite-fs：使用SQLite替代文件系统
穷苦书生_万事愁: 这篇关于Clace和sqlite-fs的文章让我对SQLite替代文件系统这一主题有了全新的认识，博主的细节描写非常到位，展现了深厚的专业功底。期待博主未来能够持续分享更多类似的好文，希望在博主的指导下共同进步。感谢博主的分享和支持！
从元语言角度评价华为仓颉
征途黯然.: 这篇文章对于从元语言角度评价华为仓颉提供了很多信息，有了更全面的了解。
本周10个Github有趣项目WebLlama等
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/618615715。
我是一名程序员而且我很蠢
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。