本文是LLM系列文章,针对《DeAL: Decoding-time Alignment for Large Language Models》的翻译。
摘要
如今,大型语言模型(LLM)被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐,通过诸如人类反馈强化学习(RLHF)等技术。然而,尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先,无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次,模型训练中的残余差距和这种方法的可靠性也值得怀疑(例如,即使在安全训练后也容易越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并启用LLM(DeAL)的解码时间ALignment的框架。在其核心,我们将解码视为一个启发式引导的搜索过程,并促进了各种对齐目标的使用。我们对程序约束(如关键字和长度约束)(在LLM之前广泛研究)和抽象目标(如无害性和有用性)(在后LLM时代提出)的实验表明,我们可以通过细粒度的权衡来DeAL,提高对对齐目标的遵守率,并解决LLM中的残余差距。最后,虽然DeAL可以与RLHF和提示技术有效配对,但其通用性使解码速度较慢,这是我们留给未来工作的优化。
1 引言
2 方法
3 实验
4 相关工作
5 结论
在这项工作中,我们提出了DeAL,这是一个在解码时将LLM与一组不同目标对齐的框架;这提供了几个好处。首先,DeAL可以强加非通用和定制的对齐目标(及其非琐碎的组合),这些目标不应在微调时强加给自回归模型。其次,它可以与现有的对齐方法结合使用,如系统提示和对偏好数据的微调,

本文提出DeAL框架,允许在解码时自定义奖励函数,以实现大型语言模型(LLM)与用户目标的对齐。通过解决训练时对齐的限制,DeAL在解码阶段引导搜索过程,提高了对各种目标的遵守率,包括程序约束和抽象目标。尽管解码速度较慢,但DeAL可与RLHF和提示技术配合使用,为LLM的对齐提供了一种新的途径。
已下架不支持订阅
9780

被折叠的 条评论
为什么被折叠?



