MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences

828 篇文章

已下架不支持订阅

本文探讨了单一奖励RLHF在处理多个人类偏好时的局限性,提出MaxMin-RLHF方法,通过学习偏好分布的混合和MaxMin对齐目标,以公平方式代表不同偏好。实验显示,该方法在保留多数群体性能的同时,显著提高了少数群体的获胜率,展现其在强化学习对齐中的公平性和鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences》的翻译。

摘要

从人类反馈中强化学习(RLHF)通过使用从偏好数据导出的单一奖励模型,使语言模型与人类偏好相一致。然而,这种方法忽略了从多个用户收集的数据中固有的人类偏好的丰富多样性。在这项工作中,我们首先得出了与单一奖励RLHF一致的不可能结果,从而突出了其在代表不同人类偏好方面的不足。为了提供该问题的公平解决方案,我们通过期望最大化算法学习偏好分布的混合,并受社会选择理论中的平等原则的启发,提出了政策学习的MaxMin对齐目标,以更好地代表不同的人类偏好。我们阐明了我们提出的方法与分布鲁棒优化和通用RL的联系,从而强调了我们提出解决方案的通用性和鲁棒性。我们介绍了小规模(GPT-2)和大规模语言模型(使用Tulu2-7B)的综合实验结果,并展示了在人类偏好多样性的情况下所提出方法的有效性。与传统RLHF算法相比,我们的算法在获胜率方面实现了超过16%的平均改进,并将少数群体的获胜率(准确性)提高了33%以上,而不影响多数群体的性能,展示了我们方法的稳健性和公平性。我们注意到,我们在这项工作中的发现不仅限于语言模型&#

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值