本文是LLM系列文章,针对《RS-DPO: A Hybrid Rejection Sampling and Direct Preference
Optimization Method for Alignment of Large Language Models》的翻译。
摘要
来自人类反馈的强化学习(RLHF)已被广泛用于使大型语言模型与用户意图相一致。然而,基于近端策略优化(PPO)的RLHF偶尔是不稳定的,需要进行显著的超参数微调,并且在对齐期间最大化估计的回报在计算上是昂贵的。最近,直接偏好优化(DPO)被提出来解决这些挑战。然而,DPO通常依赖于人类注释器和替代LLM生成的对比响应,而不是策略模型,这限制了RLHF的有效性。在本文中,我们通过系统地结合拒绝采样(RS)和DPO来解决这两个挑战。我们提出的方法,RS-DPO,始于监督微调策略模型(SFT)的开发。每个提示的k个响应的变化集合直接从SFT模型中采样。RS-DPO根据对比样本的奖励分布来识别对比样本对。最后,我们将DPO与对比样本相结合,使模型与人类偏好相一致。我们的实验表明,我们提出的方法在有限的资源环境下有效地微调LLM,从而提高了与用户意图的一致性。此外,它优于现有的方法,包括RS、PPO和DPO。
<