DeAL: Decoding-time Alignment for Large Language Models

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量316

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Alignment 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136867303

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Alignment

49 篇文章

订阅专栏

本文提出DeAL框架，允许在解码时自定义奖励函数，以实现大型语言模型（LLM）与用户目标的对齐。通过解决训练时对齐的限制，DeAL在解码阶段引导搜索过程，提高了对各种目标的遵守率，包括程序约束和抽象目标。尽管解码速度较慢，但DeAL可与RLHF和提示技术配合使用，为LLM的对齐提供了一种新的途径。

本文是LLM系列文章，针对《DeAL: Decoding-time Alignment for Large Language Models》的翻译。

摘要

如今，大型语言模型（LLM）被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐，通过诸如人类反馈强化学习（RLHF）等技术。然而，尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先，无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次，模型训练中的残余差距和这种方法的可靠性也值得怀疑（例如，即使在安全训练后也容易越狱）。为了解决这些问题，我们提出了DeAL，这是一个允许用户自定义奖励函数并启用LLM（DeAL）的解码时间ALignment的框架。在其核心，我们将解码视为一个启发式引导的搜索过程，并促进了各种对齐目标的使用。我们对程序约束（如关键字和长度约束）（在LLM之前广泛研究）和抽象目标（如无害性和有用性）（在后LLM时代提出）的实验表明，我们可以通过细粒度的权衡来DeAL，提高对对齐目标的遵守率，并解决LLM中的残余差距。最后，虽然DeAL可以与RLHF和提示技术有效配对，但其通用性使解码速度较慢，这是我们留给未来工作的优化。