DeAL: Decoding-time Alignment for Large Language Models

828 篇文章

已下架不支持订阅

本文提出DeAL框架,允许在解码时自定义奖励函数,以实现大型语言模型(LLM)与用户目标的对齐。通过解决训练时对齐的限制,DeAL在解码阶段引导搜索过程,提高了对各种目标的遵守率,包括程序约束和抽象目标。尽管解码速度较慢,但DeAL可与RLHF和提示技术配合使用,为LLM的对齐提供了一种新的途径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《DeAL: Decoding-time Alignment for Large Language Models》的翻译。

DeAL:大型语言模型的解码时间对齐

摘要

如今,大型语言模型(LLM)被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐,通过诸如人类反馈强化学习(RLHF)等技术。然而,尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先,无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次,模型训练中的残余差距和这种方法的可靠性也值得怀疑(例如,即使在安全训练后也容易越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并启用LLM(DeAL)的解码时间ALignment的框架。在其核心,我们将解码视为一个启发式引导的搜索过程,并促进了各种对齐目标的使用。我们对程序约束(如关键字和长度约束)(在LLM之前广泛研究)和抽象目标(如无害性和有用性)(在后LLM时代提出)的实验表明,我们可以通过细粒度的权衡来DeAL,提高对对齐目标的遵守率,并解决LLM中的残余差距。最后,虽然DeAL可以与RLHF和提示技术有效配对,但其通用性使解码速度较慢,这是我

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值