论文速读|InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling
论文信息:
简介:
本文探讨的背景是强化学习从人类反馈(RLHF)在使语言模型与人类价值观对齐方面的成功应用。尽管RLHF在实践中取得了一定的成功,但它仍然面临着一个关键挑战——奖励黑客攻击(reward hacking),也称为奖励过度优化。这个问题主要源于奖励模型(RMs)在计算奖励时错误地泛化了训练数据,依赖于与人类偏好无关的虚假特征,例如长度偏见。这导致奖励模型在处理动态响应分布时的泛化能力差,从而在强化学习阶段引发不稳定的RL过程。
本文动机在于现有的RLHF方法在奖励建模过程中存在局限性,尤其是在处理训练数据的多义性和动态响应分布时。这些问题导致奖励模型过度依赖于训练样本中的