论文速读|Reward Generalization in RLHF: A Topological Perspective
论文信息:
简介:
本文探讨了在人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)中奖励泛化的问题。现有的对齐方法通常遵循一个共同的信息流拓扑结构:从人类中收集奖励信息,通过偏好学习进行建模,并用于调整语言模型。然而,这种共同的拓扑结构尚未得到系统的表征,其替代方案也未被充分探索,导致数据效率低下和泛化不可靠的问题未得到解决。
本文旨在通过引入一个理论框架来研究RLHF中的奖励泛化问题,重点关注宏观和微观层面的信息流拓扑结构。本文的动机在于解决现有RLHF方法在奖励泛化方面的不足。由于现有方法在处理高任务多样性、低标注成本和跨多样化场景的对齐性能泛化之间存在三难困境,本文希望通过