探秘 DeepSeek-R1:推理大语言模型的深度解析与启示

引言

在AI(或机器学习)领域,很多定义模糊且备受争议,“推理模型”也不例外。在本文中,“推理”被定义为回答需要复杂、多步骤生成并包含中间步骤的问题的过程。例如,“法国的首都是哪里?”这种事实问答不涉及推理,而“如果一列火车以每小时60英里的速度行驶3小时,它能走多远?”则需要简单推理,要认识到距离、速度和时间之间的关系才能得出答案。

大多数大语言模型都具备基本推理能力,能回答简单推理问题。但推理模型是指在更复杂推理任务(如解决谜题、谜语和数学证明)中表现出色的大语言模型,且现在多数推理模型在回复中包含“思考”或“思维”过程。推理模型的中间步骤有两种呈现方式,一是明确包含在回复中,二是像OpenAI的o1等一些推理大语言模型,会运行多个迭代的中间步骤,但不显示给用户。

何时使用推理模型

推理模型擅长解决复杂任务,如谜题、高级数学问题和具有挑战性的编程任务。但对于简单任务,如摘要、翻译或基于知识的问题回答,并非必需。若将推理模型用于所有任务,会导致效率低下、成本高昂,还可能因“过度思考”而出错。我们需根据任务选择合适的工具或大语言模型 。

推理模型的优劣势

概述DeepSeek训练流程

DeepSeek发布了三个不同的变体:DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。

  • DeepSeek - R1 - Zero:在DeepSeek - V3基模基础上,直接应用强化学习,不使用任何SFT数据进行冷启动。
  • DeepSeek - R1:在DeepSeek - V3基模基础上,先通过额外的SFT阶段和进一步的RL训练进一步精炼,改进了“冷启动”的R1 - Zero模型。
  • DeepSeek - R1 - Distill:使用前面步骤中生成的SFT数据,对Qwen和Llama模型进行了微调,以增强其推理能力,纯SFT。

    DeepSeek三种不同推理模型的训练过程

四种构建和改进推理模型的方法

推理时间扩展

推理时间扩展指在推理时增加计算资源以提高输出质量。就像人类有更多时间思考复杂问题时能生成更好回答一样,我们可以应用一些技术鼓励大语言模型在生成答案时“多思考”。
提示工程是一种直接的推理时扩展方法,例如思维链(CoT)提示,在输入提示中加入“逐步思考”之类的短语,鼓励模型生成中间推理步骤,而不是直接跳到最终答案,在更复杂问题上通常(但不总是)会得到更准确结果 。
另一种推理时间扩展方法是使用投票和搜索策略。例如多数投票,让大语言模型生成多个答案,然后通过多数投票选择正确答案。也可以使用束搜索和其他搜索算法来生成更好的回答。

来自https://arxiv.org/abs/2205.11916


不同的基于搜索的方法依赖于基于过程-奖励的模型来选择最佳答案

纯强化学习

DeepSeek R1论文的亮点之一是发现推理可以从纯强化学习(RL)中学习。与典型的RL方法(在RL之前先监督微调SFT)不同,DeepSeek - R1 - Zero仅使用强化学习进行训练,没有初始的SFT阶段,所以是“纯”的RL。
对于奖励,没有使用基于人类偏好的训练奖励模型,而是使用了准确性和格式奖励两种类型。准确性奖励使用LeetCode编译器验证编码答案,并使用确定性系统评估数学回答;格式奖励依赖于一个大语言模型裁判,以确保回答遵循预期的格式,例如将推理步骤放在<think>标签内。
这种方法能让大语言模型具备更强推理能力,尽管R1 - Zero不是表现最好的推理模型,但通过生成中间“思考”步骤展示了推理能力 。

DeepSeek-R1-Zero模型的训练过程


来自DeepSeek R1技术报告

监督微调和强化学习

实际上在RL之前包含一个SFT阶段很常见,OpenAI的o1很可能是使用类似方法训练的。
使用DeepSeek - R1 - Zero生成了“冷启动”SFT数据,首先用这些数据通过指令微调训练模型,然后经过RL阶段,在这个阶段不仅保留了DeepSeek - R1 - Zero的RL过程中使用的准确性和格式奖励,还增加了一致性奖励,以防止语言混合。在RL阶段之后是又一轮的SFT数据收集,再经过另一轮RL,最终的DeepSeek - R1模型与DeepSeek - R1 - Zero相比,性能有了显著提升。

DeepSeek-R1模型的训练过程


来自DeepSeek-R1技术报告

纯监督微调(SFT)和蒸馏

DeepSeek还发布了通过“蒸馏”过程训练的较小模型。蒸馏指在由较大大语言模型生成的SFT数据集上对较小的大语言模型(如Llama 8B和70B以及Qwen 2.5模型(0.5B到32B))进行指令微调。
训练这些蒸馏模型有两个关键原因:一是较小的模型更高效,运行成本更低,可在较低端硬件上运行,更吸引研究者和大模型爱好者;二是纯SFT的方法研究,这些蒸馏模型作为有趣的基准,展示了纯监督微调(SFT)在没有强化学习的情况下能将模型提升到什么程度。
蒸馏模型明显弱于DeepSeek - R1,但与DeepSeek - R1 - Zero相比,尽管小了几个数量级,效果却很强。与o1 mini相比,这些模型的表现也相当不错。同时测试发现,对于较小的模型来说,蒸馏比纯RL更有效。

DeepSeek-R1-Distill模型的训练过程


蒸馏与非蒸馏模型的基准比较


32B模型的蒸馏和RL的基准比较

四种方法小结

  • 推理时扩展:不需要额外训练,但会增加推理成本,大规模部署会更昂贵。不过对于已经表现强劲的模型仍是不错选择,o1很可能利用了推理时扩展,这也解释了为什么它每个标记成本比DeepSeek - R1更高。
  • 纯RL:对于研究目的很有趣,能提供关于推理作为一种新兴行为的见解。但在实际模型训练中,RL + SFT是首选方法,因为能产生更强大的推理模型。
  • RL + SFT:是构建高性能推理模型的关键方法。
  • 蒸馏:是一种有吸引力的方法,特别是用于创建更小、更高效的模型。但局限性在于不能推动创新或产生下一代推理模型,因为蒸馏总是依赖于现有的、更强的模型来生成监督微调(SFT)数据。

关于DeepSeek R1的思考

DeepSeek - R1模型是了不起的工作,其详细的技术报告提供了很多方法论见解。推理作为一种行为从纯RL中出现是很有趣的发现,而且DeepSeek在宽松的开源MIT许可证下开源模型,比Meta的Llama模型限制更少。

它与o1的比较

DeepSeek - R1和o1大致在同一水平,但DeepSeek - R1在推理时更高效,这表明DeepSeek可能在训练过程中投入更多,而OpenAI可能更多依赖o1的推理时间扩展。不过直接比较o1和DeepSeek - R1很困难,因为OpenAI没有披露太多关于o1的信息,比如o1是否是专家混合(MoE)、o1有多大、o1是否只是GPT - 4o的一个稍微改进版本,只有最少的RL + SFT和广泛的推理时扩展等。在不知道这些细节的情况下,直接比较就像比较苹果和橙子。

训练DeepSeek - R1的成本

有人提到约600万美元的训练成本,但可能混淆了DeepSeek - V3和DeepSeek - R1。600万美元的估计是基于每GPU小时2美元的假设和DeepSeek - V3最终训练运行所需的GPU小时数。DeepSeek团队从未披露R1的确切GPU小时或训练成本,所以任何成本估计都纯属猜测。无论如何,DeepSeek - R1是开源推理模型的重要里程碑,其推理时的高效性使其成为OpenAI的o1的有趣替代品。

在小成本下训练推理模型

训练一个DeepSeek - R1级别的推理模型可能需要数十万到数百万美元,这让预算有限的研究人员或工程师望而却步。但好消息是,模型蒸馏提供了更具成本效益的替代方案。

好消息:蒸馏可以走很远

DeepSeek团队的R1蒸馏模型展示了蒸馏的潜力,这些模型虽比DeepSeek - R1小得多,但推理性能出色。不过蒸馏也不是完全便宜的,蒸馏80万个SFT样本需要大量计算资源。在DeepSeek - R1发布前几天,看到关于Sky - T1的文章,使用仅1.7w SFT样本训练了一个开源32B模型,总成本只有450美元,说明较小的、有针对性的微调工作也能取得令人印象深刻的结果,且根据基准测试,Sky - T1的表现大致与o1相当。

Sky-T1:在450美元内训练你自己的推理模型-https://novasky-ai.github.io/posts/sky-t1/

预算上的纯RL:TinyZero

Sky - T1专注于模型蒸馏,在“纯RL”领域也有工作,如TinyZero,一个3B参数模型,复制了DeepSeek - R1 - Zero的方法,训练成本不到30美元。即使只有3B参数,TinyZero也表现出一些新兴的自我验证能力,支持了“推理可以通过纯RL在小模型中出现”的观点。

图片

超越传统SFT:旅程学习

O1 Replication Journey: A Strategic Progress Report – Part1》提出“旅程学习”作为“捷径学习”的替代方法。捷径学习指传统的指令微调方法,模型只使用正确的解决路径进行训练;旅程学习则包括错误的解决路径,让模型从错误中学习。这种方法与TinyZero纯RL训练中观察到的自我验证能力有关,专注于通过SFT完全改进模型。通过将模型暴露于错误的推理路径及其修正,旅程学习可能会强化自我纠正能力,使推理模型更可靠,这可能是未来低预算推理模型训练的一个令人兴奋的方向 。
 

引用参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

歌刎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值