原文链接:0元!使用魔搭免费算力,基于Qwen基座模型,复现DeepSeek-R1
DeepSeek-R1-Zero通过GRPO算法,将强化学习从绝对奖励驱动转变为相对偏好优化,结合分组对比学习和多步推理奖励机制,使基础模型在复杂任务中展现出更强的逻辑推理能力。
DeepSeek R1-Zero训练流程如下:
输入问题 → 模型生成多个答案 → 规则系统评分 → GRPO计算相对优势 → 更新模型。
DeepSeek R1-Zero的打分规则如下:
1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法十分简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如<answer>和</answer>间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。
2.格式奖励:格式奖励模型强制要求模型将其思考过程置于<think>和</think>标签之间。没这么做就扣分,做了就加分。
参考文章:一文读懂|DeepSeek新模型大揭秘,为何它能震动全球AI圈_腾讯新闻
DeepSeek R1-Zero使用纯强化学习为模型带来了推理能力,省去了传统的SFT环境和RLHF中的奖励模型(Reward Model)
GRPO算法的核心思想
-
相对偏好优化:传统RL(如PPO)依赖绝对奖励值优化策略,但推理任务中奖励可能稀疏或难以量化。GRPO改为对模型生成的不同答案组(Group)进行相对比较,通过对比学习强化高质量推理路径。
-
分组对比学习:将模型对同一问题的多个候选回答划分为不同组(如正确/错误、优/劣答案),通过组间对比学习,引导模型识别逻辑更严谨的解决方案。
-
稳定优化目标:通过对比策略的相对优势(Relative Advantage)而非绝对值,缓解奖励函数设计偏差带来的训练不稳定问题。
基于规则的奖励系统为模型生成的每个候选答案(或推理轨迹)分配一个分数后,这些分数在 GRPO 中主要有两方面作用:
(1) 计算相对优势(Relative Advantage)
-
定义:相对优势衡量某个答案相对于其他答案的偏好程度。
-
计算方式:
-
对同一问题生成的多个候选答案,根据规则系统分配的分数进行分组(如正例组和负例组)。
-
计算某个答案yi的相对优势:

-
作用:通过相对优势,GRPO 能够更稳定地优化策略,避免对绝对奖励值的过度依赖
-
(2) 策略优化目标
-
基于相对优势,GRPO 构建损失函数来更新策略模型:

-
第一项:基于相对优势的策略梯度,鼓励模型生成高相对优势的答案。
-
第二项:KL 散度约束,防止策略偏离预训练基础模型

最低0.47元/天 解锁文章
307

被折叠的 条评论
为什么被折叠?



