大语言模型推理的强化学习现状(下)

上篇文章《大语言模型推理的强化学习现状(上)》已系统地阐述了推理模型、RLHF(基于人类反馈的强化学习)与PPO(近端策略优化)这三项核心技术,囊括了它们的基础概念、核心机理以及在实际应用里的关键作用。

本文将进一步深入探究这些技术的更多细节,包括具体的实现方式、优化方略,以及它们在复杂场景中的表现成效与实践启示,以期为大家提供更为丰富和深入的理解。

强化学习算法:从PPO到GRPO

如前所述,PPO是RLHF的原始算法,在推理模型的强化学习训练中表现稳定。但DeepSeek-R1采用了一种名为分组相对策略优化(GRPO)的改进算法,该算法最早见于其2024年的论文——《DeepSeekMath:开源语言模型数学推理的极限突破》。

DeepSeek团队将GRPO定义为PPO的变体——在优化内存占用的同时,增强模型的数学推理能力。

这一改进的核心动机源于对计算效率的追求,具体做法是舍弃了PPO中的“评论家”(即价值模型):GRPO不再依赖这一额外模型计算预期奖励来推导优势值,而是采用更简洁的方式——从策略模型中采样多个答案,通过这些答案的相对质量直接计算优势。

为直观展示PPO与GRPO的差异,此处引用DeepSeekMath论文中的示意图。
在这里插入图片描述

强化学习奖励建模:从RLHF到RLVR

至此我们探讨了RLHF流程,并介绍了常用强化学习算法:PPO和GRPO。

但既然RLHF已是大语言模型对齐的核心工具,它与推理能力的提升存在何种关联呢?

这种关联的关键,在于DeepSeek团队如何将类似的强化学习思路(结合GRPO算法)应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值