花了一段时间实现了一个类似InstructGPT的三阶段训练的LLM-RLHF项目,https://github.com/Joyce94/LLM-RLHF-Tuning,这篇文章主要介绍一下LLM-RLHF中阶段3 PPO部分的实现细节。欢迎大家交流讨论。
一、模型
1、模型介绍
PPO部分需要用到4个模型:
sft模型:阶段1训练的有监督微调模型,作为策略模型的基线模型,在整个训练过程中参数固定不变,用于限制策略模型πθRL更新幅度,防止策略模型训练偏差过大
rm模型:阶段2训练的奖励模型,在PPO训练