深度学习:基于Qwen复现DeepSeek R1的推理能力

原文链接:0元!使用魔搭免费算力,基于Qwen基座模型,复现DeepSeek-R1

DeepSeek-R1-Zero通过GRPO算法,将强化学习从绝对奖励驱动转变为相对偏好优化,结合分组对比学习和多步推理奖励机制,使基础模型在复杂任务中展现出更强的逻辑推理能力。

DeepSeek R1-Zero训练流程如下:

输入问题 → 模型生成多个答案 → 规则系统评分 → GRPO计算相对优势 → 更新模型。

DeepSeek R1-Zero的打分规则如下:

1.准确性奖励:准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法十分简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式(如<answer>和</answer>间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2.格式奖励:格式奖励模型强制要求模型将其思考过程置于<think>和</think>标签之间。没这么做就扣分,做了就加分。

参考文章:一文读懂|DeepSeek新模型大揭秘,为何它能震动全球AI圈_腾讯新闻

DeepSeek R1-Zero使用纯强化学习为模型带来了推理能力,省去了传统的SFT环境和RLHF中的奖励模型(Reward Model)

GRPO算法的核心思想

  • 相对偏好优化:传统RL(如PPO)依赖绝对奖励值优化策略,但推理任务中奖励可能稀疏或难以量化。GRPO改为对模型生成的不同答案组(Group)进行相对比较,通过对比学习强化高质量推理路径。

  • 分组对比学习:将模型对同一问题的多个候选回答划分为不同组(如正确/错误、优/劣答案),通过组间对比学习,引导模型识别逻辑更严谨的解决方案。

  • 稳定优化目标:通过对比策略的相对优势(Relative Advantage)而非绝对值,缓解奖励函数设计偏差带来的训练不稳定问题。

基于规则的奖励系统为模型生成的每个候选答案(或推理轨迹)分配一个分数后,这些分数在 GRPO 中主要有两方面作用:

(1) 计算相对优势(Relative Advantage)
  • 定义:相对优势衡量某个答案相对于其他答案的偏好程度。

  • 计算方式

    • 对同一问题生成的多个候选答案,根据规则系统分配的分数进行分组(如正例组和负例组)。

    • 计算某个答案yi的相对优势:

    • 作用:通过相对优势,GRPO 能够更稳定地优化策略,避免对绝对奖励值的过度依赖

(2) 策略优化目标
  • 基于相对优势,GRPO 构建损失函数来更新策略模型:

  • 第一项:基于相对优势的策略梯度,鼓励模型生成高相对优势的答案。

  • 第二项:KL 散度约束,防止策略偏离预训练基础模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值