本文是LLM系列文章,针对《DeAL: Decoding-time Alignment for Large Language Models》的翻译。
摘要
如今,大型语言模型(LLM)被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐,通过诸如人类反馈强化学习(RLHF)等技术。然而,尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先,无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次,模型训练中的残余差距和这种方法的可靠性也值得怀疑(例如,即使在安全训练后也容易越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并启用LLM(DeAL)的解码时间ALignment的框架。在其核心,我们将解码视为一个启发式引导的搜索过程,并促进了各种对齐目标的使用。我们对程序约束(如关键字和长度约束)(在LLM之前广泛研究)和抽象目标(如无害性和有用性)(在后LLM时代提出)的实验表明,我们可以通过细粒度的权衡来DeAL,提高对对齐目标的遵守率,并解决LLM中的残余差距。最后,虽然DeAL可以与RLHF和提示技术有效配对,但其通用性使解码速度较慢,这是我