Deepseek r1 超详细论文解读

原创已于 2025-03-24 12:06:58 修改 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #自然语言处理 #算法 #gpt-3 #人工智能

于 2025-03-21 17:55:48 首次发布

NLP模型同时被 2 个专栏收录

3 篇文章

订阅专栏

大模型

1 篇文章

订阅专栏

Qwen3-VL-30B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

文章背景

Deepseek R1 原文链接

随着人工智能技术的不断进步，特别是在大语言模型（LLM）领域，模型的推理能力逐渐变得越来越重要。语言模型在自然语言处理任务中表现出色，但其推理能力仍然存在一定的局限。尽管 OpenAI 等公司推出了高效的模型，如 GPT-4，但在面对复杂推理任务时，依然存在以下问题：

模型在推理任务中缺乏一致性和准确性，尤其是在需要多步骤推理或者推理逻辑复杂的任务中。
虽然链式思维（Chain-of-Thought，CoT）可以帮助模型进行推理，但如何让模型在推理过程中产生更为深刻和一致的思考仍然是一个难题。
当前的推理能力提升通常依赖于大量的监督式微调（SFT），这不仅要求大量人工标注数据，还会使得模型在某些情境下表现得不够灵活和自适应。

文章动机

论文的动机主要是想探索如何通过强化学习（RL）来解决上述问题，提升大语言模型的推理能力。具体来说，作者的目标是：

提升推理能力：通过强化学习训练模型，优化其在推理任务中的表现。传统上，强化学习在推理任务中较少应用，而更多依赖于预训练和监督式微调。该研究希望通过RL的方式来引导模型通过试错和反馈来自我提升推理能力。
减少对监督数据的依赖：当前大多数增强推理能力的方法都依赖大量的有标签数据（如SFT），这既耗时又耗资源。作者希望通过 纯强化学习（不依赖任何监督数据）来提升模型的推理能力，探索LLM能否通过自我演化来达到更高的推理水平。
探索模型自我演化的潜力：通过强化学习，模型可以在没有人为干预的情况下，自己“学会”如何进行推理。这种自我演化的能力是该研究的一个重要创新，尤其是当模型在没有明确监督指导下，通过强化学习逐步改善其推理结果时。
解决现有方法的不足：现有的推理强化学习方法（如过程奖励模型）面临许多挑战，例如，如何有效评估推理步骤的正确性，避免奖励黑客问题（reward hacking）。论文提出通过设计更加稳健的奖励模型，如基于准确性的奖励和格式化奖励，来解决这些问题。

贡献点

Post-Training: Large-Scale Reinforcement Learning on the Base Model(后训练：在基础模型上进行大规模强化学习)

直接将 RL 应用于基础模型，而无需依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索解决复杂问题的思维链（CoT），从而开发 DeepSeek-R1-Zero。DeepSeekR1-Zero 展示了自我验证、反射和生成长 CoT 等功能，这标志着研究界的一个重要里程碑。值得注意的是，这是第一项公开研究，验证了 LLM 的推理能力可以纯粹通过 RL 来激励，而无需 SFT。这一突破为该领域的未来发展铺平了道路。
我们介绍了开发 DeepSeek-R1 的管道。该管道包含两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。我们相信，该管道将通过创建更好的模型使行业受益。

Distillation: Smaller Models Can Be Powerful Too(蒸馏：较小的模型也可以很强大)

较大模型的推理模式可以提炼成较小的模型，与通过 RL 在小型模型上发现的推理模式相比，性能更好。开源 DeepSeek-R1 及其 API 将使研究社区在未来能够提炼出更好的更小模型。
使用 DeepSeek-R1 生成的推理数据，我们对研究界广泛使用的几个密集模型进行了微调。评估结果表明，蒸馏的较小密集模型在基准上表现非常出色。DeepSeekR1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩，超过了 QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上的得分为 72.6%，在 MATH-500 上为 94.3%，在 LiveCodeBench 上为 57.2%。这些结果明显优于以前的开源模型，可与 o1-mini 相媲美。我们开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点给社区。

文章创新点

以前的工作严重依赖大量的监督数据来提高模型性能。在这项研究中，我们证明，即使不使用监督微调（SFT）作为冷启动，也可以通过大规模强化学习（RL）显着提高推理能力。此外，通过包含少量冷启动数据，可以进一步提高性能。
（1） DeepSeek-R1-Zero，将 RL 直接应用于基本模型，无需任何 SFT 数据
（2） DeepSeek-R1，从使用数千个长思维链（CoT）示例微调的检查点开始应用 RL。
（3）将 DeepSeek-R1 的推理能力提炼成小型密集模型。

关于文中提到的奖励模型：

准确性奖励：该奖励模型用于评估模型的回答是否正确。例如，在数学问题上，答案可以通过预定义的规则进行验证，确保回答的正确性。
格式奖励：除了准确性奖励外，格式奖励用于确保模型的回答格式规范，要求推理过程被包裹在 <think>和 </think> 标签之间，以保证输出清晰易读。

注意：开发 DeepSeek-R1-Zero 时，没有应用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击，重新训练奖励模型需要额外的训练资源，并且使整个训练管道复杂化。

什么是神经奖励模型？

神经奖励模型（Neural Reward Model，NRM）是指通过神经网络学习一个奖励函数，用于评估模型输出的质量。在强化学习（RL）中，奖励模型是关键的一部分，它决定了智能体（模型）在训练过程中如何调整策略，以获得更高的回报。例如，在推理任务中，神经奖励模型可以被训练来预测模型回答的准确性、逻辑性或可读性。

什么是Reward Hacking？

奖励黑客攻击指的是 强化学习的模型发现了奖励机制中的漏洞，并利用这些漏洞来最大化奖励，而不是学习真正符合任务目标的策略。
在神经奖励模型中，如果奖励设计不当，模型可能会找到一些“取巧”的方式来获得高奖励，而不是实际提高推理能力。例如：生成某些“模板化”的答案，因为它们在奖励模型的评分体系下表现更好，而不是探索更复杂但正确的推理路径。
过度迎合奖励模型的偏好，而不是根据问题本身进行合理推理。这种现象会导致模型的推理能力没有真正提升，甚至可能变得不可用。

为什么不用神经奖励模型？

容易被模型“黑”掉（Reward Hacking）：由于神经奖励模型是数据驱动的，它可能会学到一些不合理的奖励模式，导致 LLM 采用欺骗性策略，而不是发展真正的推理能力。
重新训练成本高：如果神经奖励模型的效果不好，需要不断调整和重新训练，而训练一个高质量的奖励模型需要大量数据和计算资源。
增加训练管道的复杂性：强化学习本身已经是一个较复杂的训练过程，引入神经奖励模型会让训练流程变得更加繁琐，并可能带来不稳定性。

GRPO框架

GRPO（Guided Reinforcement Learning from Policy Optimization）训练框架下，如果不用神经奖励模型（Neural Reward Model），那么奖励模型（Reward Model, RM）通常是基于规则或者特定的可验证信号来设计的，而不需要一个额外训练的神经网络模型。这种方法可以降低“奖励黑客攻击”（reward hacking）的风险，并减少训练复杂度。

在 GRPO 框架中，奖励模型的设计取决于具体的任务目标。如果不使用神经奖励模型，通常会采用明确可计算的奖励信号，如：

准确性奖励（Accuracy Reward）：
适用于有唯一正确答案的任务，如数学推理、编程问题、逻辑推理等。
例如，如果 LLM 解决数学题的答案是正确的，就给高奖励，否则给低奖励（或零奖励）。这种方法不需要训练额外的神经网络，而是直接基于答案是否正确进行评分。
格式化奖励（Format Reward）：
适用于需要规范输出格式的任务，比如模型需要以 Chain-of-Thought（CoT）形式输出推理过程。例如，可以设计一个规则：
如果模型的推理过程包裹在 … 结构内，则给予奖励；
如果模型直接输出答案而没有推理过程，则不给奖励或给较低奖励。
任务特定的启发式奖励（Heuristic Reward）：
适用于任务特定的规则，比如写作任务可以使用拼写/语法检查工具来打分。例如，在编写代码的任务中，可以用自动测试（unit tests）来检查代码是否正确执行，只有通过所有测试的代码才会获得高奖励。

训练的模板

在这里插入图片描述
为了训练 DeepSeek-R1-Zero，我们首先设计一个简单的模板，指导基本模型遵守我们指定的指令。如表 1 所示，此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程，然后是最终答案。我们有意将约束限制在这种结构格式上，避免任何特定于内容的偏见——例如强制进行反思推理或推广特定的问题解决策略——以确保我们能够在 RL 过程中准确观察模型的自然进展。

DeepSeek-R1-Zero 的性能、自我进化过程

在这里插入图片描述
DeepSeek-R1-Zero 获得强大的推理能力，而无需任何监督微调数据。这是一项值得注意的成就，因为它强调了该模型仅通过 RL 有效学习和泛化的能力。此外，DeepSeekR1-Zero 的性能可以通过多数投票的应用进一步增强。例如，当 AIME 基准测试采用多数表决时，DeepSeek-R1-Zero 的性能从 71.0% 升级到 86.7%，从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有和没有多数投票的情况下实现如此有竞争力的性能，这凸显了其强大的基础能力和在推理任务中进一步发展的潜力。

这种自我进化最引人注目的方面之一是随着测试时间计算的增加而出现复杂的行为。诸如反射（模型重新审视和重新评估其先前步骤）等行为以及探索解决问题的替代方法等行为都会自发出现。这些行为没有被显式编程，而是作为模型与强化学习环境交互的结果而出现的。这种自发开发显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、更准确地处理更具挑战性的任务。

DeepSeek-R1-Zero的顿悟时刻

在这里插入图片描述
DeepSeek-R1-Zero 的缺点尽管 DeepSeek-R1-Zero 表现出很强的推理能力，并自主发展出意想不到的强大推理行为，但它面临一些问题。
例如，DeepSeek-R1-Zero 正在努力应对可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享，我们探索了 DeepSeek-R1，这是一种利用 RL 和人类友好型冷启动数据的方法。

DeepSeek-R1: Reinforcement Learning with Cold Start

受到 DeepSeek-R1-Zero 的可喜结果的启发，自然而然地出现了两个问题：
1）通过将少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？
2）我们如何训练一个用户友好的模型，该模型不仅产生清晰连贯的思维链（CoT），而且还表现出强大的通用能力？为了解决这些问题，我们设计了一个路线来训练 DeepSeek-R1 。

该由路线四个阶段组成，概述如下。

路线第一步：Cold Start 冷启动

与 DeepSeek-R1-Zero 不同，为了防止基础模型出现 RL 训练的早期不稳定冷启动阶段，对于 DeepSeek-R1，我们构建并收集少量长 CoT 数据，以将模型作为初始 RL 参与者进行微调。为了收集这些数据，我们探索了几种方法：以长 CoT 的 few-shot 提示为例，直接提示模型通过反射和验证生成详细的答案，以可读格式收集 DeepSeek-R1 Zero 输出，并通过人工注释者进行后处理来提炼结果。

冷启动的体现

在 DeepSeek-R1 训练中，冷启动问题主要体现在：

纯强化学习训练（如 DeepSeek-R1-Zero）一开始完全没有监督数据，需要从零开始学习推理能力，这会导致初期学习缓慢、答案质量较低，甚至出现随机胡言乱语的情况。
为了解决冷启动问题，DeepSeek-R1 采用了一个多阶段训练管道：先用少量人工标注数据（SFT）进行冷启动训练，让模型具备初步推理能力。然后再进入强化学习（RL）阶段，通过试错优化推理能力。这种方法相当于给模型一个“起跑线”，让它不用完全从零开始探索，提高学习效率。

总结：
冷启动指的是系统在没有足够数据或经验的情况下难以做出有效决策的现象。在 DeepSeek-R1 训练中，冷启动问题主要体现在强化学习（RL）初期，模型缺乏推理能力，需要通过 少量监督数据（SFT）进行预训练来缓解这个问题。这种方法使模型的推理能力更容易训练，同时减少早期训练的不稳定性。

冷启动的优势

可读性（Readability）

DeepSeek-R1-Zero 的输出存在可读性问题：可能混杂多种语言（比如一部分是中文，一部分是英文）。可能缺乏 Markdown 格式，使得最终的回答难以阅读（例如，答案没有明显的加粗、代码块、换行等）。
冷启动数据改进了可读性：
在设计冷启动数据时，作者专门设定了可读性规则，确保输出格式友好：
每个回答的结尾包含总结（summary），方便用户快速理解关键点。
使用特殊格式定义输出：

|special_token|<reasoning_process>|special_token|<summary>

推理过程（reasoning_process）：即 Chain of Thought（CoT），详细推理步骤。
总结（summary）：对整个推理过程进行概括，以便用户快速理解。

2. 潜力（Potential）

为什么冷启动数据提升了推理能力？ 通过设计合理的冷启动数据模式（pattern）并结合人工经验（human priors），训练得到的 DeepSeek-R1 表现优于纯强化学习训练的 DeepSeek-R1-Zero。

结论：研究人员认为推理模型的迭代训练（Iterative Training）比纯强化学习（RL）更有效，因为强化学习可能会带来不可控的探索，而在有监督数据（SFT）指导下的冷启动可以提供更稳定的基础。

冷启动优势的总结：

纯 RL 训练的 DeepSeek-R1-Zero 存在可读性问题（格式混乱、多语言混杂），而冷启动数据可以显著改善可读性，让输出结构更加清晰。
使用冷启动数据进行初步微调，可以提供更强的推理能力（优于直接用 RL 训练），这证明了迭代式训练比直接强化学习更有效。
设计良好的冷启动数据（包括 Chain-of-Thought 结构和总结）能让模型更容易学习高质量推理方法。

路线第二步：面向推理的强化学习

在对冷启动数据微调 DeepSeek-V3-Base 后，我们应用了与 DeepSeek-R1-Zero 中相同的大规模强化学习训练过程。此阶段侧重于增强模型的推理能力，尤其是在推理密集型任务中，例如编码、数学、科学和逻辑推理，这些任务涉及定义明确的问题和明确的解决方案。
在训练过程中，我们观察到 CoT 经常表现出语言混合，尤其是当 RL 提示涉及多种语言时。为了缓解语言混合问题，我们在 RL 训练期间引入了语言一致性奖励，其计算方式是目标语言单词在 CoT 中的比例。 尽管消融实验表明，这种对齐会导致模型的性能略有下降，但这种奖励与人类的偏好一致，使其更具可读性。
最后，我们将推理任务的准确性和语言一致性的奖励结合起来，直接相加形成最终的奖励。然后，我们在微调模型上应用 RL 训练，直到它在推理任务上实现收敛。

路线第三步：拒绝采样和监督微调

当面向推理的 RL 收敛时，我们利用结果检查点收集 SFT（监督微调）数据，用于下一轮。与主要关注推理的初始冷启动数据不同，此阶段整合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说，我们生成数据并微调模型，如下所述。

推理数据 Reasoning data 我们通过从上述RL训练的检查点进行拒绝采样来策划推理提示并生成推理轨迹。在上一个阶段，我们仅包括可以使用基于规则的奖励来评估的数据。但是，在此阶段，我们通过合并其他数据来扩展数据集，其中一些数据通过将地面真相和模型预测馈送到DeepSeek-v3进行判断来使用生成奖励模型。此外，由于模型输出有时是混乱的且难以阅读，因此我们已经用混合语言，长副画和代码块过滤了思想链。对于每个提示，我们采样了多个响应，仅保留正确的响应。总的来说，我们收集了约60万个相关的培训样本。

非推理数据 Non-Reasoning data 对于非推理数据，例如写作、事实 QA、自我认知和翻译，我们采用 DeepSeek-V3 管道，并重用 DeepSeek-V3 的 SFT 数据集的一部分。对于某些非推理任务，我们调用 DeepSeek-V3 来生成一个潜在的思维链，然后再通过提示来回答问题。但是，对于更简单的查询，例如“hello”，我们不提供 CoT 作为响应。最后，我们总共收集了大约 200k 个与推理无关的训练样本。

我们使用上述约 800k 样本的精选数据集对 DeepSeek-V3-Base 进行了两个 epoch 的微调。

路线第四步：所有场景的强化学习

为了进一步使模型与人类偏好保持一致，我们实现了一个二级强化学习阶段，旨在提高模型的有用性和无害性，同时完善其推理能力。具体来说，我们使用奖励信号和各种提示分布的组合来训练模型。对于推理数据，我们遵循 DeepSeek-R1-Zero 中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，我们采用奖励模型来捕捉复杂和细微场景中的人类偏好。我们以 DeepSeek-V3 管道为基础，采用类似的偏好对和训练提示分布。为了提供帮助，我们只关注最终摘要，确保评估强调响应对用户的效用和相关性，同时最大限度地减少对潜在推理过程的干扰。为了实现无害性，我们会评估模型的整个响应，包括推理过程和摘要，以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终，奖励信号和多样化数据分布的集成使我们能够训练一个在推理方面表现出色的模型，同时优先考虑有用性和无害性。

总结：R1详细的训练流程

DeepSeek-R1-Zero：纯强化学习（RL），不依赖任何监督数据。
DeepSeek-R1：在冷启动数据基础上，结合 RL + SFT 的多阶段训练模型。

DeepSeek-V3-Base
     │
     ▼
[路线一：无监督RL] → Reinforcement Learning →  DeepSeek-R1-Zero
     │
     └───────────────────────────────┐
                                     ▼
     [路线二：多阶段训练 DeepSeek-R1]
     Step 1: 冷启动 SFT（几千条高质量 CoT）
     Step 2: Reasoning RL（加入语言一致性奖励）
     Step 3: 拒绝采样 + 构建800k监督数据
	     ✅ 推理类数据（Reasoning）约 600k；
		 ✅ 非推理类数据（Writing/QA/Translation 等）约 200k（复用 DeepSeek-V3 SFT）
     Step 4: SFT（两轮）
     Step 5: RL for All（增强 helpfulness + harmlessness）
                                     ▼
                             ✅ DeepSeek-R1

在这里插入图片描述

蒸馏

为小模型提供推理能力为了让更高效的小模型具备像 DeepSeek-R1 这样的推理功能，我们使用 DeepSeek-R1 精选的 800k 样本直接微调了 Qwen （Qwen， 2024b）和 Llama （AI@Meta， 2024）等开源模型，详见 §2.3.3。我们的研究结果表明，这种直接的蒸馏方法显着增强了较小模型的推理能力。我们在这里使用的基本模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.514B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为它的推理能力略好于 Llama-3.1。对于提炼模型，我们只应用 SFT，不包括 RL 阶段，即使合并 RL 可以大大提高模型性能。我们在这里的主要目标是证明蒸馏技术的有效性，将 RL 阶段的探索留给更广泛的研究界。

实验部分

变量设置

在这里插入图片描述
注意：temperature of 0.6 and a top-p value of 0.95

Temperature（温度）

作用：temperature 控制生成文本时的随机性。值越高，模型生成的内容越具有多样性和创造性；值越低，模型生成的内容则越保守、重复性更强。
解释：

当 temperature = 1 时，模型生成的内容是最为随机的，接近“温度较高”的感觉。
当 temperature值减小（如设置为 0.6），生成的内容会更加集中、准确和可靠，但可能缺乏创意。
当 temperature 越低（如设置为0），模型几乎只会选择最可能的单词或短语，生成的文本变得更加确定和一致，但缺少变化。

Top-p（也叫 nucleus sampling，核心采样）

作用：top-p 控制生成文本时从多少个概率较高的词汇中进行选择，而不是只从概率最高的一个词汇中选择。它基于累积概率选择一个范围，使得模型选择的词汇的累积概率超过 p 的值。
解释：

top-p = 1 意味着不进行限制，模型可以选择任何词汇。
top-p = 0.9 表示模型只会从累积概率大于 90% 的词汇中进行选择。这种方法允许模型保持较高的多样性，同时避免产生概率非常低的词汇，减少生成无意义内容的风险。

总结：这两个参数常常被一起使用，以平衡文本的流畅性、创新性和合理性。

temperature 主要控制文本的随机性和创造性（高温度时内容更随机，低温度时内容更确定）。
top-p控制文本的多样性和可靠性（通过限制概率的累积值来控制选择词汇的范围）。

k:模型为每个问题生成的候选答案数量
在评估模型的能力（尤其是代码生成、数学推理等任务）时，通常不会只生成一个答案，而是生成多个候选答案（k 个）。
这些 k 个生成结果可以用于计算 Pass@k 评估指标，其中：
Pass@1：如果生成的第 1 个答案是正确的，则认为该问题成功通过。
Pass@k（如 Pass@10）：如果 k 个候选答案中至少有一个是正确的，则该问题被认为通过。

R1 为什么是这样的训练过程

冷启动数据构建（Cold Start Data）

目的：打好基础，为模型提供一个初始的推理框架。

为什么这样做？ 冷启动数据是模型的第一步训练数据，它为模型建立了最基础的推理能力。这个阶段使用人工设计的任务数据，确保模型能够理解基本的推理结构，并具备一定的“推理常识”。只有在模型有了基本的推理能力后，才能在之后的阶段更有效地学习更复杂的任务。

推理导向强化学习训练（Reasoning-Oriented RL）

目的：提升推理能力，使模型能够在更复杂的推理任务中做出准确且合理的判断。

为什么这样做？ 强化学习（RL）通过让模型在推理任务中尝试、反馈和改进，帮助它在推理的准确性、推理链条的连贯性、以及多语言一致性上得到显著提升。在这一阶段，奖励机制非常关键，可以确保模型的输出不仅仅是合理的推理，还要考虑到语言的一致性与结构的清晰性。这一步使得模型更专注于复杂的推理问题，比如逻辑推理、数学计算等任务。

拒绝采样 + 监督数据构建（Rejection Sampling + SFT Data Collection）

目的：扩展数据集，生成多样的训练数据，增强模型的推理和通用能力。

为什么这样做？ 拒绝采样：通过 RL 训练后的模型生成多个答案，筛选出最优答案，避免生成混乱或不准确的内容。这保证了数据集质量，减少了噪声，提升了训练的效率。
监督数据构建：通过构建推理类数据和非推理类数据，使得模型不仅能够处理复杂的推理任务，还能应对写作、问答、翻译等非推理类任务。
这一阶段的数据集更加多样化，涵盖了各种通用任务（写作、QA、翻译等），为后续的微调提供了丰富的语料。

4. 监督式微调（Supervised Fine-Tuning, SFT）

目的：微调模型，使得模型不仅具备强大的推理能力，还能在写作、角色扮演、问答等通用任务中同样表现出色。

为什么这样做？ SFT 使模型更加通用：通过监督式微调，可以让模型在更广泛的任务中表现良好，而不仅仅局限于推理任务。这个阶段通过大规模数据集（包括推理数据和非推理数据），让模型在不同领域上都有较好的泛化能力。
加强模型稳定性：该步骤使得模型不仅能够进行推理，还能进行流畅的语言生成和自适应任务执行。

5. 强化学习训练是对模型进行最后优化的关键步骤。

目标：
通过这一阶段的强化学习训练，进一步提升 DeepSeek-R1 在推理和多任务环境下的表现，使其能够更好地适应实际的应用场景，并解决潜在的问题。

总结：为什么要经过这几个步骤？
逐步构建推理能力：首先通过冷启动数据和推理强化学习确保模型掌握了推理基础，接着通过拒绝采样增强数据质量，最后用监督微调确保其在各种任务中都能表现良好。
增强数据多样性：通过推理类数据和非推理类数据的结合，让模型的能力不仅仅局限于单一任务，使其成为一个多任务处理的通用模型。
高效的学习路径：通过每个阶段逐步提升和扩展模型的能力，确保其不仅在简单任务中表现优异，也能应对更复杂和多样化的实际应用场景。
整体目标是通过这个分阶段、精细化的训练流程，构建一个既能推理、又能处理多种通用任务的强大模型。这样做的好处是最大程度地确保模型的多功能性和稳定性，适应广泛的应用需求。如果每个步骤跳过或不优化，模型可能会在某些任务上表现欠佳，无法成为一个强大的通用模型。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

图文对话

Qwen3-VL