上篇文章《大语言模型推理的强化学习现状(上)》已系统地阐述了推理模型、RLHF(基于人类反馈的强化学习)与PPO(近端策略优化)这三项核心技术,囊括了它们的基础概念、核心机理以及在实际应用里的关键作用。
本文将进一步深入探究这些技术的更多细节,包括具体的实现方式、优化方略,以及它们在复杂场景中的表现成效与实践启示,以期为大家提供更为丰富和深入的理解。
强化学习算法:从PPO到GRPO
如前所述,PPO是RLHF的原始算法,在推理模型的强化学习训练中表现稳定。但DeepSeek-R1采用了一种名为分组相对策略优化(GRPO)的改进算法,该算法最早见于其2024年的论文——《DeepSeekMath:开源语言模型数学推理的极限突破》。
DeepSeek团队将GRPO定义为PPO的变体——在优化内存占用的同时,增强模型的数学推理能力。
这一改进的核心动机源于对计算效率的追求,具体做法是舍弃了PPO中的“评论家”(即价值模型):GRPO不再依赖这一额外模型计算预期奖励来推导优势值,而是采用更简洁的方式——从策略模型中采样多个答案,通过这些答案的相对质量直接计算优势。
为直观展示PPO与GRPO的差异,此处引用DeepSeekMath论文中的示意图。

强化学习奖励建模:从RLHF到RLVR
至此我们探讨了RLHF流程,并介绍了常用强化学习算法:PPO和GRPO。
但既然RLHF已是大语言模型对齐的核心工具,它与推理能力的提升存在何种关联呢?
这种关联的关键,在于DeepSeek团队如何将类似的强化学习思路(结合GRPO算法)应

最低0.47元/天 解锁文章
682

被折叠的 条评论
为什么被折叠?



