1.1 摘要
本文根据2025年《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》翻译总结的 。可见和强化学习有关。
介绍两个模型,DeepSeek-R1-Zero 和DeepSeek-R1. DeepSeek-R1-Zero 没有采用监督微调(SFT),而是采用纯大规模强化学习。DeepSeek-R1是在强化学习中融合了多步训练和冷启动数据。
DeepSeek-R1模型表现如下:
1.2简介
我们目标是探索大模型的潜力,不使用任何监督数据,使用纯强化学习进行自我演进。我们采用DeepSeek-V3-Base作为基础模型,采用GRPO作为强化学习框架。经过上千次强化学习步骤,DeepSeek-R1-Zero 取得了很好的表现,表现可以匹配OpenAI-o1-0912.
而DeepSeek-R1-Zero 面临较差的可读性和语言混合问题,为此,我们引入了DeepSeek-R1,其融合了一小部分冷启动数据和多步训练方法。1)开始我们收集了上千的冷启动数据来微调DeepSeek-V3-Base模型。2)接着,我们采用类似DeepSeek-R1-Zero 的 强化学习。3)在强化学习快收敛时,我们创建了新的监督训练微调数据(SFT)重新训练DeepSeek-V3-Base模型,其中SFT数据来自强化学习checkpoint的rejection sampling和DeepSeek-V3监督数据的结合。4)在上面微调后,接着进行额外一个强化学习。综上,DeepSeek-R1的表现可以匹配OpenAI-o1-1217.可以说DeepSeek-R1经历了两轮强化学习,两轮SFT。
1.3 DeepSeek-R1-Zero
纯强化学习,没有使用监督微调数据。但DeepSeek-R1-Zero 面临较差的可读性和语言混合问题。
1.3.1 Group Relative Policy Optimization (GRPO)
GRPO不是采用评价(critic)模型和策略(policy)模型一样大小,而是通过一组分数来评价。
1.3.2 奖励模型
采用了两种奖励模型。
- 准确奖励模型,如数学问题,可以直接判断是否准确;
- 格式奖励模型,采用‘<think>’ and ‘</think>’ 格式输入。
1.3.3 模型表现
如下图,DeepSeek-R1-Zero 取得了很好的表现,表现可以匹配OpenAI-o1-0912.
1.3.4 模型自我进化
随着模型训练步数的增加,模型思考问题的时间也在增长,可以说模型在自我进化吧,模型考虑问题更全面了。
1.3.5 模型顿悟时刻(Aha moment)
如下图红色字体下面,模型突然知道重新评估思考问题。
1.4 DeepSeek-R1
讲DeepSeek-R1的四步。
1.4.1 冷启动
不像DeepSeek-R1-Zero,为了防止强化学习训练开始时的不稳定冷启动阶段,对于DeepSeek-R1,我们构造了一些长的CoT(Chains of Thought )数据来微调模型。为了搜集这些数据,我们开发了如下方法:使用长CoT的few-shot ,直接喂给模型生成详细的答案,采集DeepSeek-R1-Zero的输出为可读的样式,人类注释者通过后处理精炼结果。
共收集了上千条冷数据。冷数据具有如下优点:
1)可读性。格式如下 :
|special_token|<reasoning_process>|special_token|<summary>,
其中reasoning_process是用来查询的CoT,summary是总结的推理结果。
2)潜力:提升了模型的表现。
1.4.2 面向推理的强化学习
应用和DeepSeek-R1-Zero相同规模的强化学习。
1.4.3 拒绝抽样和监督微调
有600K的推理数据和200k的非推理数据,对模型进行了两轮(epoch)微调。
1.4.4 对所有场景进行强化学习
为了使模型更好的满足人类偏好,实施了第2次强化学习,主要是改善模型的有益性和无害性,同时又强化其推理能力。我们训练模型采用了联合奖励信号和多样化提示词。
1.4.5 蒸馏
我们使用DeepSeek-R1的那800k的样例(上面1.4.3节的)直接微调一些开源小模型,也显著增强了这些小模型的推理能力。