DeepSeek-R1_deepseekr1推理数据和非推理数据-优快云博客

本文链接：https://blog.youkuaiyun.com/zephyr_wang/article/details/145657323

1.1 摘要

本文根据2025年《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》翻译总结的。可见和强化学习有关。

介绍两个模型，DeepSeek-R1-Zero 和DeepSeek-R1. DeepSeek-R1-Zero 没有采用监督微调（SFT），而是采用纯大规模强化学习。DeepSeek-R1是在强化学习中融合了多步训练和冷启动数据。

DeepSeek-R1模型表现如下：

1.2简介

我们目标是探索大模型的潜力，不使用任何监督数据，使用纯强化学习进行自我演进。我们采用DeepSeek-V3-Base作为基础模型，采用GRPO作为强化学习框架。经过上千次强化学习步骤，DeepSeek-R1-Zero 取得了很好的表现，表现可以匹配OpenAI-o1-0912.

而DeepSeek-R1-Zero 面临较差的可读性和语言混合问题，为此，我们引入了DeepSeek-R1，其融合了一小部分冷启动数据和多步训练方法。1）开始我们收集了上千的冷启动数据来微调DeepSeek-V3-Base模型。2）接着，我们采用类似DeepSeek-R1-Zero 的强化学习。3）在强化学习快收敛时，我们创建了新的监督训练微调数据（SFT）重新训练DeepSeek-V3-Base模型，其中SFT数据来自强化学习checkpoint的rejection sampling和DeepSeek-V3监督数据的结合。4）在上面微调后，接着进行额外一个强化学习。综上，DeepSeek-R1的表现可以匹配OpenAI-o1-1217.可以说DeepSeek-R1经历了两轮强化学习，两轮SFT。

1.3 DeepSeek-R1-Zero

纯强化学习，没有使用监督微调数据。但DeepSeek-R1-Zero 面临较差的可读性和语言混合问题。

1.3.1 Group Relative Policy Optimization (GRPO)

GRPO不是采用评价（critic）模型和策略（policy）模型一样大小，而是通过一组分数来评价。

1.3.2 奖励模型

采用了两种奖励模型。

准确奖励模型，如数学问题，可以直接判断是否准确；
格式奖励模型，采用‘<think>’ and ‘</think>’ 格式输入。

1.3.3 模型表现

如下图，DeepSeek-R1-Zero 取得了很好的表现，表现可以匹配OpenAI-o1-0912.

1.3.4 模型自我进化

随着模型训练步数的增加，模型思考问题的时间也在增长，可以说模型在自我进化吧，模型考虑问题更全面了。

1.3.5 模型顿悟时刻（Aha moment）

如下图红色字体下面，模型突然知道重新评估思考问题。

1.4 DeepSeek-R1

讲DeepSeek-R1的四步。

1.4.1 冷启动

不像DeepSeek-R1-Zero，为了防止强化学习训练开始时的不稳定冷启动阶段，对于DeepSeek-R1，我们构造了一些长的CoT（Chains of Thought ）数据来微调模型。为了搜集这些数据，我们开发了如下方法：使用长CoT的few-shot ，直接喂给模型生成详细的答案，采集DeepSeek-R1-Zero的输出为可读的样式，人类注释者通过后处理精炼结果。

共收集了上千条冷数据。冷数据具有如下优点：

1）可读性。格式如下：

|special_token|<reasoning_process>|special_token|<summary>,

其中reasoning_process是用来查询的CoT，summary是总结的推理结果。

2）潜力：提升了模型的表现。