NLP论文速读(EMNLP 2024)|缓解在RLHF过程中的对齐税

论文速读|Mitigating the Alignment Tax of RLHF

论文信息:

图片

简介:

      本文讨论的背景是大型语言模型(LLMs)在预训练阶段获得的广泛能力,以及在通过人类反馈进行强化学习(RLHF)时如何保持这些能力的问题。

      预训练的LLMs,如GPT-4、Bard和Claude,虽然在多种任务上表现出色,但仍需与人类偏好对齐,以确保它们在提供帮助、信息真实性和避免造成伤害方面符合人类的期望。然而,先前的研究表明,RLHF过程可能导致LLMs遗忘在预训练中获得的多样化能力,这种现象被称为“对齐税”(alignment tax)。

      本文旨在深入研究这一问题,并提出减少对齐税的方法,同时保持对齐性能。本文动机

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值