
DeepSeek R1
文章平均质量分 96
DeepSeek R1技术解析,包含算法讲解、原理介绍、代码复现、项目实战。
FF-Studio
这个作者很懒,什么都没留下…
展开
-
读 DeepSeek-R1 论文笔记
我们推出第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero作为无需监督微调(SFT)预训练阶段、直接通过大规模强化学习(RL)训练的基础模型,展现出卓越的推理能力。通过RL训练,该模型自然涌现出大量强大且有趣的推理行为,但也面临可读性差、语言混杂等问题。为解决这些问题并进一步提升推理性能,我们引入DeepSeek-R1模型,该模型在RL训练前融合了多阶段训练和冷启动数据策略。原创 2025-02-11 18:35:15 · 1025 阅读 · 0 评论 -
实战LLM强化学习——使用GRPO(DeepSeek R1出圈算法)
使用Unsloth库、LoRa微调及GRPO Trainer自定义奖励函数实现大模型的强化学习微调,实战案例。原创 2025-01-29 01:01:51 · 6365 阅读 · 1 评论 -
【DeepSeek】复现DeepSeek R1?快来看这个Open R1项目实践指南~
虽然我们重点要谈 GRPO 和相关训练,但在那之前,还是得对 Open R1 项目的基本结构和运行方式做一个大致了解。项目内多处文件都提示,若想顺利运行,需要提前满足一些环境依赖。从以上可以看到,Open R1 给出了两个“示例奖励函数”——和。:对比回答与 gold solution 是否一致,用 parser 做一些 LaTeX 公式提取,然后判断是否相符。:纯粹检查字符串是否匹配某种模板,比如。在实际项目中,我们可能换成别的,比如针对对话安全性、对话流畅性或其他指标的打分模型,也可能是。原创 2025-01-28 17:51:52 · 2979 阅读 · 0 评论 -
【DeepSeek】LLM强化学习GRPO Trainer详解
GRPO Trainer 能用强化学习算法,低成本高效率地训练LLM。支持使用自定义奖励函数来代替密集奖励模型。输入参数prompts(包含提示),(包含生成的补全),数据集可能包含的所有列名(但prompt除外)。例如,如果数据集包含名为的列,则将使用作为关键字参数调用该函数。满足此要求的最简单方法是在函数签名中使用**kwargs。对于标准格式prompts和将是字符串列表。对于对话格式prompts和将是消息字典列表。返回值:函数必须返回一个浮点数列表。每个浮点数代表对应于单个补全的奖励。原创 2025-01-28 16:55:33 · 3612 阅读 · 0 评论 -
【DeepSeek】大模型强化学习训练GRPO算法,你学会了吗?
GRPO,一种新的强化学习方法,是DeepSeek R1使用到的训练方法。今天的这篇博客文章,笔者会从零开始,层层递进地为各位介绍一种在强化学习中极具实用价值的技术——**GRPO(Group Relative Policy Optimization)**。如果你是第一次听说这个概念,也不必慌张,笔者会带领你从最基础的强化学习背景知识讲起,一步步剖析其来龙去脉,然后再结合实例讲解 GRPO 在实际应用中的思路和操作示例,最后再和其他近似方法对比,看看它和当下主流的 PPO(近端策略优化)等方法究竟有何区原创 2025-01-28 04:18:03 · 4793 阅读 · 0 评论 -
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源?
GRPO,一种新的强化学习方法,是DeepSeek R1使用到的训练方法。今天的这篇博客文章,笔者会从零开始,层层递进地为各位介绍一种在强化学习中极具实用价值的技术——**GRPO(Group Relative Policy Optimization)**。如果你是第一次听说这个概念,也不必慌张,笔者会带领你从最基础的强化学习背景知识讲起,一步步剖析其来龙去脉,然后再结合实例讲解 GRPO 在实际应用中的思路和操作示例,最后再和其他近似方法对比,看看它和当下主流的 PPO(近端策略优化)等方法究竟有何区原创 2025-01-28 03:55:57 · 34512 阅读 · 5 评论 -
【DeepSeek】GRPO论文译文 - DeepSeekMath: 推动开放语言模型在数学推理能力上的极限
我们引入了 Group Relative Policy Optimization (GRPO)(分组相对策略优化),它是 Proximal Policy Optimization (PPO)(近端策略优化)的一种变体,它在提升数学推理能力的同时,还能优化 PPO 的内存使用。翻译 2025-01-28 03:24:29 · 3281 阅读 · 1 评论