【论文解读】deepseek系列:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
github:https://github.com/deepseek-ai/DeepSeek-R1/tree/main

本文介绍了 DeepSeek-R1 系列模型,包括 DeepSeek-R1-Zero 和 DeepSeek-R1,它们通过强化学习(Reinforcement Learning, RL)显著提升了大型语言模型(LLMs)的推理能力。DeepSeek-R1-Zero 通过大规模强化学习训练,无需监督式微调(Supervised Fine-Tuning, SFT),展示了强大的推理行为。DeepSeek-R1 则在此基础上引入了冷启动数据和多阶段训练流程,进一步提升了模型性能,达到了与 OpenAI-o1-1217 相当的水平。此外,研究还探索了从 DeepSeek-R1 中蒸馏出小型模型,以赋予它们推理能力。
在这里插入图片描述

一、研究背景与动机

1. 大型语言模型(LLMs)的发展

近年来,大型语言模型(LLMs)发展迅速,逐渐缩小了与人工通用智能(AGI)之间的差距。这些模型在推理任务上的表现尤为引人注目,但如何进一步提升其推理能力仍然是一个关键问题。

2. 推理能力的提升

推理能力的提升主要依赖于模型的训练方法。传统的监督式微调(SFT)虽然有效,但需要大量的标注数据,成本较高。而强化学习(RL)则提供了一种更为经济且有效的方法,可以在较少的计算资源下显著提升模型的推理性能。

二、DeepSeek-R1 系列模型

1. DeepSeek-R1-Zero

1.1 概述

DeepSeek-R1-Zero 是通过大规模强化学习训练的模型,不依赖于监督式微调(SFT)。它直接在基础模型上应用强化学习,展示了强大的推理行为。

1.2 强化学习算法

DeepSeek-R1-Zero 使用了 Group Relative Policy Optimization (GRPO) 算法,该算法通过从旧策略中采样一组输出并优化新策略来节省训练成本。具体公式如下:

J ( θ ) = E [ i ∼ A , { i j } j = 1 A ∼ π θ A ( i j ∣ i ) ] ( 1 A ∑ i = 1 A min ⁡ ( π θ ( i i ∣ i ) π θ A ( i i ∣ i ) , 1 − ϵ , 1 + ϵ ) A i − β D A ) J(\theta) = \mathbb{E}[i \sim A, \{i_j\}_{j=1}^{A} \sim \pi_{\theta_{A}}(i_j | i)] \left( \frac{1}{A} \sum_{i=1}^{A} \min \left( \frac{\pi_{\theta}(i_i | i)}{\pi_{\theta_{A}}(i_i | i)}, 1 - \epsilon, 1 + \epsilon \right) A_i - \beta D_{A} \right) J(θ)=E[iA,{ij}j=1AπθA(iji)](A1i=1Amin(πθA(iii)πθ(iii),1ϵ,1+ϵ)AiβDA)

其中, A i A_i Ai 是优势函数,计算公式为:

A i = i i − m A ( { i 1 , i 2 , … , i A } ) A_i = i_i - m_{A}(\{i_1, i_2, \ldots, i_A\}) Ai=iimA({i1,i2,,iA})

1.3 奖励建模

奖励建模是强化学习的关键部分,DeepSeek-R1-Zero 采用了基于规则的奖励系统,主要包括两种类型的奖励:

  • 准确性奖励:评估响应是否正确,例如数学问题的确定性结果。
  • 格式奖励:确保模型将思考过程放在 <think></think> 标签之间。
1.4 训练模板

为了训练 DeepSeek-R1-Zero,设计了一个简单的模板,要求模型先产生推理过程,然后提供最终答案。具体模板如下:

prompt will be replaced with the specific reasoning question during training.
1.5 性能与自我进化过程

DeepSeek-R1-Zero 在 AIME 2024 基准测试中的表现随着训练的进行显著提升,平均 Pass@1 分数从 15.6% 提升到 71.0%。此外,模型在训练过程中自然地增加了思考时间,从生成数百到数千个推理标记,显著提升了推理能力。
在这里插入图片描述

2. DeepSeek-R1

2.1 概述

DeepSeek-R1 在 DeepSeek-R1-Zero 的基础上引入了冷启动数据和多阶段训练流程,进一步提升了模型性能,达到了与 OpenAI-o1-1217 相当的水平。

2.2 冷启动

通过收集数千个长推理链(CoT)数据来微调 DeepSeek-V3-Base 模型,作为 RL 的起点。这些数据提高了模型的可读性和性能。

2.3 推理导向的强化学习

在冷启动数据上微调后,应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。此外,引入了语言一致性奖励,以减少多语言混合问题。

2.4 拒绝采样和监督式微调

当推理导向的 RL 收敛时,利用结果检查点收集 SFT 数据。收集了约 600k 个推理相关训练样本和 200k 个非推理训练样本。这些数据用于微调模型,提升其在写作、角色扮演等任务上的性能。

2.5 面向所有场景的强化学习

实施二次强化学习阶段,旨在提升模型的有用性和无害性,同时优化推理能力。这一阶段结合了推理数据和一般数据,使用规则奖励和神经奖励模型来指导学习过程。

三、实验结果

1. DeepSeek-R1 的评估

1.1 基准测试

DeepSeek-R1 在多个基准测试中表现出色,包括 MMLU、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、CNMO 2024 和 AIME 2024。

1.2 具体表现
  • 教育导向的知识基准测试:DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 上的表现显著优于 DeepSeek-V3,特别是在 STEM 相关问题上。
  • 代码相关任务:DeepSeek-R1 在 LiveCodeBench 和 Codeforces 上的表现优于 DeepSeek-V3,展示了其在代码推理任务上的优势。
  • 数学任务:DeepSeek-R1 在 AIME 2024 和 MATH-500 上的表现与 OpenAI-o1-1217 相当,显著优于其他模型。

2. 蒸馏模型的评估

2.1 概述

使用 DeepSeek-R1 生成的 800k 样本对开源模型(如 Qwen 和 Llama)进行微调,结果表明这些蒸馏模型在多个基准测试中表现出色。

2.2 具体表现
  • DeepSeek-R1-Distill-Qwen-7B:在 AIME 2024 上的 Pass@1 分数为 55.5%,在 MATH-500 上为 83.3%。
  • DeepSeek-R1-Distill-Qwen-32B:在 AIME 2024 上的 Pass@1 分数为 72.6%,在 MATH-500 上为 83.3%。
  • DeepSeek-R1-Distill-Llama-70B:在 AIME 2024 上的 Pass@1 分数为 70.0%,在 MATH-500 上为 86.7%。

四、讨论与未来工作

1. 蒸馏与强化学习的比较

蒸馏方法显著提升了小型模型的推理能力,而通过大规模 RL 训练的小型模型需要巨大的计算资源,可能无法达到蒸馏的效果。

2. 不成功的尝试

  • 过程奖励模型(PRM):在大规模强化学习过程中,PRM 的优势有限,可能引入额外的计算开销。
  • 蒙特卡洛树搜索(MCTS):在训练过程中遇到挑战,难以通过自我搜索迭代提升模型性能。

3. 未来工作

  • 通用能力:探索如何利用长推理链提升模型在函数调用、多轮对话等任务上的性能。
  • 语言混合问题:解决模型在处理非中英文查询时的语言混合问题。
  • 提示工程:优化提示设计,提高模型对提示的敏感性。
  • 软件工程任务:提高模型在软件工程任务上的效率,通过拒绝采样或异步评估来提升 RL 过程的效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值