Deepseek-R1:纯强化学习实现接近OpenAI o1水平(论文解读)

1.摘要

近日,Deepseek发布了自家的第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。其中DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,其展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero显示出了许多强大而有趣的推理行为。然而,它遇到了诸如可读性差和语言混合等挑战。

为了解决这些问题并进一步增强推理性能,作者引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeekR1在推理任务上实现了与OpenAI-o1-1217相当的性能。

为了支持研究社区,作者开源了DeepSeek-R1-Zero,DeepSeek-R1和六个基于Qwen和Llama的DeepSeek-R1的蒸馏模型(1.5B,7 B,8B,14 B,32 B,70 B)。

2.简介

最近,post-training已成为大模型训练的一个重要组成部分。它可以提高推理任务的准确性,并适应用户的偏好,同时相对于预训练,它只需要相对最少的计算资源。

在推理能力方面,OpenAI的o 1系列模型是第一个通过增加思维链推理过程的长度来引入推理时间缩放的模型。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,有效的测试时间缩放的挑战仍然是一个开放的问题。

一些先前的工作已经探索了各种方法,包括基于过程的奖励模型、强化学习,以及诸如蒙特卡罗树搜索和波束搜索。然而,这些方法中没有一种能够达到与OpenAI的o 1系列模型相当的通用推理性能。

在本文中,作者使用纯强化学习(RL)来提高语言模型推理能力。目标是探索在没有任何监督数据的情况下,通过纯RL过程的自我进化促使LLM发展推理能力的潜力。具体地说,作者使用DeepSeek-V3-Base作为基础模型,并采用GRPO作为RL框架,以提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。经过数千个RL步骤,DeepSeek-R1-Zero在推理基准测试中表现出超强的性能。例如,AIME 2024上的pass@1得分从15.6%提高到71.0%,在多数投票的情况下,得分进一步提高到86.7%,与OpenAI-o 1 -0912的性能相当。

然而,DeepSeek-R1-Zero遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,作者引入了DeepSeek-R1,它包含了少量的冷启动数据和多阶段训练管道。具体来说,开始是收集数千个冷启动数据来微调DeepSeek-V3-Base模型。在此之后执行面向推理的RL。在RL过程中接近收敛时,通过RL权重上的拒绝采样创建新的SFT数据,结合DeepSeek-V3在写作,事实QA和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调之后,检查点会经历一个额外的RL过程,考虑到所有场景的提示。在这些步骤之后,作者获得了一个称为DeepSeek-R1的权重,它的性能与OpenAI-o 1 -1217相当。

贡献

Post-training

  • 作者直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的思想链(CoT),从而开发了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一个验证LLM的推理能力可以纯粹通过RL来激励,而不需要SFT的开放式研究。这一突破为该领域的未来发展铺平了道路。
  • 作者介绍了开发DeepSeek-R1的管道。该管道包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个SFT阶段,作为模型推理和非推理能力的种子。

蒸馏

  • 较小的模型也可以很强大,作者证明了较大模型的推理模式可以被提取到较小的模型中,与通过RL在小模型上发现的推理模式相比,性能更好。开源的DeepSeek-R1及其API将使研究社区在未来提取更好的更小的模型。
  • 使用DeepSeek-R1生成的推理数据,作者微调了几个在研究界广泛使用的密集模型。评估结果表明,蒸馏较小的密集模型在基准测试中表现非常好。DeepSeekR 1-Distill-Qwen-7 B在AIME 2024上获得了55.5%的成绩,超过了QwQ-32 B-Preview。此外,DeepSeek-R1-Distill-Qwen-32 B在AIME 2024上的得分为72.6%,在MATH-500上为94.3%,在LiveCodeBench上为57.2%。这些结果明显优于以前的开源模型,并与o 1-mini相当。作者开源了基于Qwen2.5和Llama 3系列的1.5B、7 B、8B、14 B、32 B和70 B权重。

3.方法

之前的工作严重依赖大量监督数据来增强模型性能。在本研究中,作者证明了即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提高推理能力。此外,通过包含少量冷启动数据,可以进一步增强性能。

在下面的部分中,我们将介绍:(1)DeepSeek-R1-Zero,它直接将RL应用于基础模型,而不需要任何SFT数据,以及(2)DeepSeek-R1,它从检查点开始应用RL,并通过数千个长的思想链(CoT)示例进行微调。3)将推理能力从DeepSeek-R1中提炼到小的密集模型。

DeepSeek-R1-Zero:基于基础模型的强化学习

强化学习在推理任务中已经证明了显著的有效性,然而,这些工作在很大程度上依赖于监督数据,而这些数据的收集是耗时的。在这一节中,我们将探讨LLM在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。

强化学习

为了节省RL的训练成本,我们采用组相对策略优化(GRPO),其放弃了通常与策略模型大小相同的批评者模型,而是根据组分数来估计基线。具体而言,对于每个问题𝑞,GRPO从旧策略模型\pi_{\theta _{old}}中抽取一组输出

### 比较 DeepSeek Docker 镜像版本 对于想要了解 `deepseek-r1:7b` 和 `deepseek-r1:latest` 这两个 DeepSeek Docker 镜像之间差异的情况,可以采取多种方式来实现这一目标。通常情况下,Docker 镜像之间的主要区别体现在基础操作系统、依赖库以及应用程序本身的更新上。 #### 使用 Docker 命令行工具对比镜像层 通过拉取并分析这两个特定标签的镜像,能够识别出它们各自所基于的基础镜像及其附加组件的变化: ```bash docker pull deepseek/deepseek-r1:7b docker pull deepseek/deepseek-r1:latest ``` 接着可以通过查看两者的分层信息来进行初步比较: ```bash docker inspect --format='{{json .RootFS.Layers}}' deepseek-r1:7b | jq . docker inspect --format='{{json .RootFS.Layers}}' deepseek-r1:latest | jq . ``` 上述命令会展示每个镜像内部结构中的不同层次,从而帮助理解两者间的具体变化[^1]。 #### 查看官方文档或发布说明 更为直接的方法是从官方渠道获取关于各个版本的具体改动记录。如果存在详细的变更日志,则可以直接从中了解到新旧版本间的主要改进点和技术细节上的调整[^3]。 #### 执行容器运行测试 实际操作也是检验版本差别的有效手段之一。启动两个分别对应于不同版本的容器实例,在相同条件下执行相同的任务流程,观察性能表现、资源消耗等方面是否存在显著差距。 ```bash docker run -it --rm deepseek/deepseek-r1:7b python test_script.py docker run -it --rm deepseek/deepseek-r1:latest python test_script.py ``` 这有助于发现潜在的功能增强或是兼容性问题[^2].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值