DeepSeek-R1

1.1 摘要

本文根据2025年《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 》翻译总结的 。可见和强化学习有关。

介绍两个模型,DeepSeek-R1-Zero DeepSeek-R1. DeepSeek-R1-Zero 没有采用监督微调(SFT),而是采用纯大规模强化学习DeepSeek-R1是在强化学习中融合了多步训练和冷启动数据。

DeepSeek-R1模型表现如下:

1.2简介

我们目标是探索大模型的潜力,不使用任何监督数据,使用纯强化学习进行自我演进。我们采用DeepSeek-V3-Base作为基础模型,采用GRPO作为强化学习框架。经过上千次强化学习步骤,DeepSeek-R1-Zero 取得了很好的表现,表现可以匹配OpenAI-o1-0912.

DeepSeek-R1-Zero 面临较差的可读性和语言混合问题,为此,我们引入了DeepSeek-R1,其融合了一小部分冷启动数据和多步训练方法。1)开始我们收集了上千的冷启动数据来微调DeepSeek-V3-Base模型。2)接着,我们采用类似DeepSeek-R1-Zero 的 强化学习。3)在强化学习快收敛时,我们创建了新的监督训练微调数据(SFT)重新训练DeepSeek-V3-Base模型,其中SFT数据来自强化学习checkpoint的rejection sampling和DeepSeek-V3监督数据的结合。4)在上面微调后,接着进行额外一个强化学习。综上,DeepSeek-R1的表现可以匹配OpenAI-o1-1217.可以说DeepSeek-R1经历了两轮强化学习,两轮SFT。

​​​​​​​1.3 DeepSeek-R1-Zero 

纯强化学习,没有使用监督微调数据。但DeepSeek-R1-Zero 面临较差的可读性和语言混合问题。

​​​​​​​1.3.1 Group Relative Policy Optimization (GRPO)

GRPO不是采用评价(critic)模型和策略(policy)模型一样大小,而是通过一组分数来评价。

​​​​​​​1.3.2 奖励模型

采用了两种奖励模型。

  1. 准确奖励模型,如数学问题,可以直接判断是否准确;
  2. 格式奖励模型,采用‘<think>’ and ‘</think>’ 格式输入。

1.3.3 模型表现

如下图,DeepSeek-R1-Zero 取得了很好的表现,表现可以匹配OpenAI-o1-0912.

​​​​​​​1.3.4 模型自我进化

随着模型训练步数的增加,模型思考问题的时间也在增长,可以说模型在自我进化吧,模型考虑问题更全面了。

​​​​​​​1.3.5 模型顿悟时刻(Aha moment)

如下图红色字体下面,模型突然知道重新评估思考问题。

​​​​​​​1.4 DeepSeek-R1

DeepSeek-R1的四步。

​​​​​​​1.4.1 冷启动

不像DeepSeek-R1-Zero,为了防止强化学习训练开始时的不稳定冷启动阶段,对于DeepSeek-R1,我们构造了一些长的CoT(Chains of Thought )数据来微调模型。为了搜集这些数据,我们开发了如下方法:使用长CoT的few-shot ,直接喂给模型生成详细的答案,采集DeepSeek-R1-Zero的输出为可读的样式,人类注释者通过后处理精炼结果。

共收集了上千条冷数据。冷数据具有如下优点:

1)可读性。格式如下 :

|special_token|<reasoning_process>|special_token|<summary>,

其中reasoning_process是用来查询的CoT,summary是总结的推理结果。

2)潜力:提升了模型的表现。

​​​​​​​1.4.2 面向推理的强化学习

应用和DeepSeek-R1-Zero相同规模的强化学习。

​​​​​​​1.4.3 拒绝抽样和监督微调

有600K的推理数据和200k的非推理数据,对模型进行了两轮(epoch)微调。

​​​​​​​1.4.4 对所有场景进行强化学习

为了使模型更好的满足人类偏好,实施了第2次强化学习,主要是改善模型的有益性和无害性,同时又强化其推理能力。我们训练模型采用了联合奖励信号和多样化提示词。

​​​​​​​1.4.5 蒸馏

我们使用DeepSeek-R1的那800k的样例(上面1.4.3节的)直接微调一些开源小模型,也显著增强了这些小模型的推理能力。

​​​​​​​1.5 实验结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值