DeepSeek-R1-Zero 靠无监督强化学习 “封神”,推理性能狂飙还自带 “顿悟时刻”!

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列一百九十

DeepSeek-R1-Zero 靠无监督强化学习 “封神”,推理性能狂飙还自带 “顿悟时刻”!

3.5 DeepSeek-R1推理能力强化技术
在人工智能的前沿探索中,模型推理能力的强化始终是推动技术进步的核心议题。随着大语言模型在各领域的广泛应用,如何让模型在复杂推理任务中展现出卓越性能,成为了研究人员竞相攻克的难题。DeepSeek团队在这一征程中积极探索,开发出了一系列极具创新性的技术,其中DeepSeek-R1推理能力强化技术尤为引人注目。该技术体系涵盖了从基于基础模型的强化学习,到冷启动强化学习,再到知识蒸馏等多个关键环节,旨在全方位提升模型的推理水平,为大语言模型的发展开辟新的路径。接下来将深入剖析这些技术的精妙之处及其所带来的显著成果。
3.6.1 DeepSeek-R1-Zero:基于基础模型的强化学习
强化学习在推理任务中的有效性已得到充分展现,然而也存在一个明显的局限性,那就是严重依赖监督数据。而在实际操作中,收集监督数据是一项极为耗时的工作,这在一定程度上限制了强化学习的应用和发展。下面将重点探索大语言模型在不依赖任何监督数据的情况下,发展推理能力的潜力。主要关注的是大语言模型如何通过纯粹的强化学习过程,实现自身的进化与提升。首先会对所采用的强化学习算法进行简要介绍,让读者对其原理和特点有一个基本的认识。随后,会展示一些令人振奋的研究结果,这些结果有望为相关研究社区提供有价值的参考和启示,推动该领域的进一步发展。
1.DeepSeek-R1-Zero的GRPO
为了降低强化学习的训练成本,DeepSeek-R1也采用了GRPO这一方法。与传统的强化学习方法不同,GRPO摒弃了那种通常与策略模型大小相同的价值评估模型。而是采用了一种全新的思路,即从组得分中估计基线。具体的操作过程是这样的:对于每一个问题q,GRPO会从旧策略中采样出一组输出。然后,通过对特定目标的最大化来实现对策略模型的优化。这种优化方式能够使模型在不依赖大量监督数据的情况下,依然能够有效地学习和改进,从而提升自身的推理能力。在DeepSeek-R1-Zero的训练过程中,会使用特定的内容来替代训练时的提示部分,这些提示将被具体的推理问题所取代。这个特定的内容在整个训练过程中起着关键的作用,它为模型提供了一个标准化的输入框架。通过将具体的推理问题代入其中,模型能够更好地理解问题的结构和要求,从而更有针对性地进行学习和推理。随着训练的进行,模型会不断地接触到各种不同的推理问题,通过对这些问题的处理和学习,逐渐提升自己在推理任务中的表现。
2.DeepSeek-R1-Zero的奖励建模
在强化学习中,奖励机制至关重要,它作为训练信号的源头,对强化学习的优化方向起着决定性作用。在训练DeepSeek-R1-Zero时,采用了基于规则的奖励系统,该系统主要涵盖两种不同类型的奖励,以此来引导模型学习并提升性能。
1)准确率奖励

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈敬雷-充电了么-CEO兼CTO

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值