DeepSeek-R1:是如何让 OpenAI 级别的推理模型如此高效的?
最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩,在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做到了。所以,自然而然地,我不得不深入研究他们是如何做到这一点的。
免责声明: 我只是一名对这项技术着迷的随机 ML 爱好者/开发者。我与 DeepSeek-AI 没有任何关系。只是分享我从阅读他们的研究论文和其他资料中学到的东西!
那么,秘诀是什么?
一切都与RL强化学习以及他们如何使用它有关。
大多数语言模型都结合了预训练、监督微调 (SFT),然后使用一些 RL 来完善模型。
DeepSeek 的方法有所不同,正是这种差异带来了效率。
他们表明 LLM 能够仅使用 RL 就实现了推理。
打个比喻:
普通AI模型就像先背课本(预训练),再做模拟题(监督微调),最后刷真题(强化学习)。
但DeepSeek不走寻常路,直接让模型从零开始"打怪升级"——完全靠强化学习练就解题能力!
DeepSeek-R1-Zero:纯 RL 模型(纯野生学霸模式):
他们从一个仅使用 RL 从头开始学习推理的模型开始!没有最初的监督训练。它通过反复试验来学习推理的艺术。
-
就像不报补习班的自学天才,完全不给参考答案
这意味着他们在没有任何标记数据的情况下训练了一个推理模型。这是一个概念证明,表明模型可以仅通过它们通过行动(反应)获得的激励(奖励)来学习推理。
-
每解一道题就获得"积分奖励",做错了就自己复盘
该模型还可以自我进化。它会利用之前的思考步骤,随着时间的推移不断改进。
-
还能记住之前的解题思路,像整理错题本一样持续进化
DeepSeek-R1:优化的管道:
但是,DeepSeek-R1-Zero 模型存在问题