7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80%

DeepSeek-R1自发布以来,已出现众多开源复现(Open-R1,Tiny-Zero、simpleRL-reason、Mini-R1等等),但受限于GPU条件限制,有小伙伴可能没run起来~

此刻,不用为GPU发愁,Unsloth AI黑科技来了,使用 Unsloth (GRPO) 训练自己的 R1 推理模型(附代码),增强了整个 GRPO 流程,使其使用的 VRAM 比 Hugging Face + FA2 少 80%。可以使用 Qwen2.5 (1.5B) 在仅 7GB VRAM 上重现 R1-Zero 的“顿悟时刻”:

在这里插入图片描述

GRPO + “啊哈”时刻

DeepSeek 的研究人员在使用纯强化学习 (RL) 训练 R1-Zero 时观察到了“顿悟时刻”。该模型学会了通过重新评估其初始方法延长其思考时间,而无需任何人工指导或预定义指令。
尽管仅使用 GRPO 训练了 100 步的 Phi-4,但结果已经很明显了。没有 GRPO 的模型没有思考标记,而使用 GRPO 训练的模型有思考标记并且也有正确答案。

在这里插入图片描述

这种魔力可以通过 GRPO 重现,GRPO 是一种 RL 算法,它不需要价值函数就能有效优化响应,这与依赖价值函数的近端策略优化 (PPO) 不同。

工作原理:

  • 该模型生成了多组响应。

  • 每个响应都根据正确性或由某些设定的奖励函数(而不是 LLM 奖励模型)创建的其他指标进行评分。

  • 计算该组的平均分数。

  • 每个回答的分数都会与组平均分数进行比较。

  • 该模型得到强化,以支持得分更高的反应。

举个例子,假设我们想要一个模型来解决:

1+1 等于多少?>> 思路/计算 >> 答案是 2。

2 +2 等于多少?>> 思路/计算 >> 答案是 4。

最初,必须收集大量数据来填补计算/思考流程。但 GRPO(DeepSeek 使用的算法)或其他 RL 算法可以引导模型自动展示推理能力并创建推理轨迹。相反,需要创建好的奖励函数或验证器。例如,如果它得到了正确的答案,就给它 1 分。如果有些单词拼写错误,就减 0.1 分。等等!可以提供很多函数来奖励这个过程。

Unsloth 中的 GRPO

等待至少 300 步,奖励才会真正增加,请使用最新版本的 vLLM。Unsloth在 Colab 上的示例只训练了一个小时,因此结果低于标准。为了获得良好的结果,需要训练至少 12 个小时

这是建议将 GRPO 应用于至少有 1.5B 参数的模型,以正确生成思考标记,因为较小的模型可能无法做到这一点。如果使用的是基础模型,请确保有一个聊天模板。GRPO 的训练损失跟踪现在直接内置在 Unsloth 中,无需使用 wandb 等外部工具

在这里插入图片描述

除了添加 GRPO 支持外,随后还支持在线 DPO、PPO 和 RLOO!

比较 Unsloth 的在线 DPO VRAM 消耗与标准 Hugging Face + FA2

在这里插入图片描述

https://unsloth.ai/blog/r1-reasoning
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值