本文是LLM系列文章,针对《MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences》的翻译。
MaxMin RLHF:实现具有不同人类偏好的大型语言模型的公平对齐
摘要
从人类反馈中强化学习(RLHF)通过使用从偏好数据导出的单一奖励模型,使语言模型与人类偏好相一致。然而,这种方法忽略了从多个用户收集的数据中固有的人类偏好的丰富多样性。在这项工作中,我们首先得出了与单一奖励RLHF一致的不可能结果,从而突出了其在代表不同人类偏好方面的不足。为了提供该问题的公平解决方案,我们通过期望最大化算法学习偏好分布的混合,并受社会选择理论中的平等原则的启发,提出了政策学习的MaxMin对齐目标,以更好地代表不同的人类偏好。我们阐明了我们提出的方法与分布鲁棒优化和通用RL的联系,从而强调了我们提出解决方案的通用性和鲁棒性。我们介绍了小规模(GPT-2)和大规模语言模型(使用Tulu2-7B)的综合实验结果,并展示了在人类偏好多样性的情况下所提出方法的有效性。与传统RLHF算法相比,我们的算法在获胜率方面实现了超过16%的平均改进,并将少数群体的获胜率(准确性)提高了33%以上,而不影响多数群体的性能,展示了我们方法的稳健性和公平性。我们注意到,我们在这项工作中的发现不仅限于语言模型&#