DeepSeek_R1论文翻译稿

===== 第1页 [文本层] =====

DeepSeek-R1:通过强化学习激励大语言模型的推理能力
DeepSeek-AI
research@deepseek.com
摘要
我们介绍了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有使用监督微调(SFT)作为初步步骤,展示了显著的推理能力。通过 RL,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
AIME 2024
(Pass@1)
Codeforces
(百分位)
GPQA Diamond
(Pass@1)
MATH-500
(Pass@1)
MMLU
(Pass@1)
SWE-bench Verified
(已解决)
0
20
40
60
80
100
准确率 / 百分位 (%)
79.8
96.3
71.5
97.3
90.8
49.2
79.2
96.6
75.7
96.4
91.8
48.9
72.6
90.6
62.1
94.3
87.4
36.8
63.6
93.4
60.0
90.0
85.2
41.6
39.2
58.7
59.1
90.2
88.5
42.0
DeepSeek-R1
OpenAI-o1-1217
DeepSeek-R1-32B
OpenAI-o1-mini
DeepSeek-V3
图 1 | DeepSeek-R1 的基准性能。

===== 第2页 =====

目录

目录

  • 1 引言 * 1.1 贡献 * 1.2 评估结果摘要

  • 2 方法 * 2.1 概述 * 2.2 DeepSeek-R1-Zero:在基础模型上进行强化学习 * 2.2.1 强化学习算法 * 2.2.2 奖励建模 * 2.2.3 训练模板 * 2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻 * 2.3 DeepSeek-R1:带冷启动的强化学习 * 2.3.1 冷启动 * 2.3.2 面向推理的强化学习 * 2.3.3 拒绝采样和监督微调 * 2.3.4 全场景的强化学习 * 2.4 蒸馏:赋予小模型推理能力

  • 3 实验 * 3.1 DeepSeek-R1 评估 * 3.2 蒸馏模型评估

  • 4 讨论 * 4.1 蒸馏与强化学习 * 4.2 失败的尝试

  • 5 结论、局限性和未来工作

  • A 贡献和致谢

===== 第3页 =====

1 引言

近年来,大语言模型(LLMs)经历了快速的迭代和进化(Anthropic, 2024; Google, 2024; OpenAI, ),逐步缩小了与通用人工智能(AGI)的差距。

最近,后训练已成为完整训练流程中的重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI 的 o1 系列模型首次通过增加思维链推理过程的长度引入了推理时扩展。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而,有效的测试时扩展仍然是研究社区面临的一个开放问题。之前的一些工作探索了各种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)、强化学习(Kumar et al., 2024)以及蒙特卡罗树搜索和束搜索等搜索算法(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法尚未达到与 OpenAI 的 o1 系列模型相当的通用推理性能。

在本文中,我们迈出了使用纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯 RL 过程的自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao et al., 2024)作为 RL 框架来提高模型在推理中的表现。在训练过程中,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。经过数千次 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出色。例如,AIME 2024 的 pass@1 分数从 (15.6%) 提高到 (71.0%),并且通过多数投票,分数进一步提高到 (86.7%),与 OpenAI-o1-0912 的表现相当。

然而,DeepSeek-R1-Zero 面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。随后,我们像 DeepSeek-R1-Zero 一样进行面向推理的 RL。在 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据,并结合来自 DeepSeek-V3 的写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。在用新数据进行微调后,检查点会经历额外的 RL 过程,考虑到所有场景的提示。经过这些步骤后,我们得到了一个称为 DeepSeek-R1 的检查点,其表现与 OpenAI-o1-1217 相当。

我们进一步探索了从 DeepSeek-R1 到更小的密集模型的蒸馏。使用 Qwen2.5-32B(Qwen, )作为基础模型,直接从 DeepSeek-R1 进行蒸馏比在其上应用 RL 表现更好。这表明较大基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏的 Qwen 和 Llama(Dubey et al., 2024)系列。值得注意的是,我们蒸馏的 14B 模型在推理基准测试中大幅超越了最先进的开源 QwQ-32B-Preview(Qwen, ),而蒸馏的 32B 和 70B 模型在密集模型中创下了新的记录。

===== 第4页 =====

贡献

后训练:在基础模型上进行大规模强化学习
  • *我们直接在基础模型上应用 RL,而不依赖监督微调(SFT)作为初步步骤。这种方法使模型能够探索思维链(CoT)以解决复杂问题,从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,标志着研究社区的一个重要里程碑。值得注意的是,这是第一个验证 LLMs 的推理能力可以纯粹通过 RL 激励而无需 SFT 的开放研究。这一突破为未来在这一领域的进展铺平了道路。

  • *我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流程将通过创建更好的模型使行业受益。

蒸馏:小模型也可以很强大
  • *我们展示了较大模型的推理模式可以蒸馏到较小的模型中,从而获得比在小模型上通过 RL 发现的推理模式更好的性能。开源的 DeepSeek-R1 及其 API 将使研究社区受益,以便在未来蒸馏出更好的小模型。

  • *使用 DeepSeek-R1 生成的推理数据,我们对研究社区广泛使用的几个密集模型进行了微调。评估结果表明,蒸馏的小型密集模型在基准测试中表现非常出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,超越了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分为 72.6%,在 MATH-500 上得分为 94.3%,在 LiveCodeBench 上得分为 57.2%。这些结果显著优于之前的开源模型,并与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的蒸馏 1.5B、7B、8B、14B、32B 和 70B 检查点。

评估结果摘要

  • *推理任务:(1) DeepSeek-R1 在 AIME 2024 上获得了 79.8% 的 Pass@1 分数,略微超过了 OpenAI-o1-1217。在 MATH-500 上,它获得了令人印象深刻的 97.3% 的分数,与 OpenAI-o1-1217 相当,并显著优于其他模型。(2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中表现出专家水平,它在 Codeforces 上获得了 2,029 Elo 评分,超过了 96.3% 的人类参赛者。在工程相关任务中,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可能有助于开发人员在现实世界中的任务。

  • *知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的成绩,显著优于 DeepSeek-V3,得分分别为 90.8% 的 MMLU、84.0% 的 MMLU-Pro 和 71.5% 的 GPQA Diamond。虽然在这些基准测试中其表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。OpenAI-o1 在这一基准测试中也超越了 4o。

===== 第5页 =====

  • *其他:DeepSeek-R1 在广泛的任务中也表现出色,包括创意写作、一般问答、编辑、摘要等。它在 AlpacaEval 2.0 上获得了 87.6% 的长度控制胜率,在 ArenaHard 上获得了 92.3% 的胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现出色,在长上下文基准测试中大幅优于 DeepSeek-V3。

2 方法

概述

之前的工作严重依赖大量监督数据来提高模型性能。在本研究中,我们展示了即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提高推理能力。此外,加入少量冷启动数据可以进一步提高性能。在以下部分中,我们介绍了:(1) DeepSeek-R1-Zero,它直接在基础模型上应用 RL,不使用任何 SFT 数据;(2) DeepSeek-R1,它从经过数千条长思维链(CoT)示例微调的检查点开始应用 RL;(3) 将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中。

DeepSeek-R1-Zero:在基础模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jacky_wxl(微信同号)

喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值