论文速读|Mitigating the Alignment Tax of RLHF
论文信息:
简介:
本文讨论的背景是大型语言模型(LLMs)在预训练阶段获得的广泛能力,以及在通过人类反馈进行强化学习(RLHF)时如何保持这些能力的问题。
预训练的LLMs,如GPT-4、Bard和Claude,虽然在多种任务上表现出色,但仍需与人类偏好对齐,以确保它们在提供帮助、信息真实性和避免造成伤害方面符合人类的期望。然而,先前的研究表明,RLHF过程可能导致LLMs遗忘在预训练中获得的多样化能力,这种现象被称为“对齐税”(alignment tax)。
本文旨在深入研究这一问题,并提出减少对齐税的方法,同时保持对齐性能。本文动机