RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of LLMs-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/137710234

本文提出RS-DPO，一种结合拒绝采样和直接偏好优化的方法，用于大型语言模型的对齐。RS-DPO解决了RLHF中PPO的不稳定性及计算成本问题，通过合成偏好对有效地微调LLM，提高与用户意图一致性，且对奖励模型质量不敏感。

本文是LLM系列文章，针对《RS-DPO: A Hybrid Rejection Sampling and Direct Preference
Optimization Method for Alignment of Large Language Models》的翻译。

摘要

来自人类反馈的强化学习（RLHF）已被广泛用于使大型语言模型与用户意图相一致。然而，基于近端策略优化（PPO）的RLHF偶尔是不稳定的，需要进行显著的超参数微调，并且在对齐期间最大化估计的回报在计算上是昂贵的。最近，直接偏好优化（DPO）被提出来解决这些挑战。然而，DPO通常依赖于人类注释器和替代LLM生成的对比响应，而不是策略模型，这限制了RLHF的有效性。在本文中，我们通过系统地结合拒绝采样（RS）和DPO来解决这两个挑战。我们提出的方法，RS-DPO，始于监督微调策略模型（SFT）的开发。每个提示的k个响应的变化集合直接从SFT模型中采样。RS-DPO根据对比样本的奖励分布来识别对比样本对。最后，我们将DPO与对比样本相结合，使模型与人类偏好相一致。我们的实验表明，我们提出的方法在有限的资源环境下有效地微调LLM，从而提高了与用户意图的一致性。此外，它优于现有的方法，包括RS、PPO和DPO。

1 引言

2 方法

3 实验细节

4 结果与消融

5 讨论与结论

在本文中，我们提出了RS-DPO方法，该方法直接从大型语言模型中生成响应，并利用RS对合成偏好对进行采样，以及用于RLHF训练的DPO。大量实验表明，与现有方法相比，RSDPO的有效性，包括拒绝抽样（RS）、近端策略优化（PPO）和直接偏好优化（DPO）。此外，RS-DPO是稳定的，并且不像其他方法那样对奖励模型的质量敏感。与PPO相比，我们提出的方