基于人类或AI反馈的强化学习微调大语言模型

在这里插入图片描述

大语言模型(LLM)能够执行多种自然语言处理(NLP)任务,范围从简单的对话和信息检索延伸至复杂的推理任务,如摘要生成和决策制定。

通过提示工程(Prompt Engineering)和监督微调(Supervised Fine-Tuning, SFT),借助指令和展示期望任务的示例,LLM能更有效地遵循人类意图,在特定应用场景中表现尤其突出。

然而,上述方法在某些场景下导致LLM出现非预期行为,例如捏造事实(幻觉)、生成带有偏见或毒性的文本,或未能遵循用户指令,进而使得回应失真、有毒性或对用户无实际帮助。简言之,此类模型尚未实现与用户需求的精准对齐(aligned)。

监督学习可以通过展示具有期望行为的示例来调整大型语言模型(LLM),即进行监督微调(SFT)。然而,即使所采样的示例集能够代表某些特定任务,通常也难以全面教导LLM理解更为微妙的需求,例如伦理、社会和心理层面的需求。

这些需求虽然至关重要,却相对抽象,难以通过具体示例充分展示。因此,SFT往往会导致一系列非预期行为,例如捏造事实或生成带有偏见乃至有毒性的内容。

除了通过监督和演示数据对大型语言模型(LLM)进行微调外,也可以收集人类对特定行为的反馈,并利用这些反馈来训练奖励模型(reward model)。

该奖励模型可用于在LLM探索候选响应的过程中进一步微调其参数,直至其行为与人类的偏好和价值观相一致。这种方法被称为基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。下图展示了基于人类反馈的强化学习(RLHF)与基于人工智能反馈的强化学习(RLAIF)之间的差别:[左侧展示RLHF流程:人类偏好数据→训练奖励模型→奖励模型+策略模型+PPO→对齐的LLM。右侧展示RLAIF流程:AI偏好数据→训练奖励模型→奖励模型+策略模型+PPO→对齐的LLM]

[左侧展示RLHF流程:人类偏好数据→训练奖励模型→奖励模型+策略模型+PPO→对齐的LLM。右侧展示RLAIF流程:AI偏好数据→训练奖励模型→奖励模型+策略模型+PPO→对齐的LLM]

近期,相关研究显示,采用直接的LLM反馈替代人类反馈,成为扩展奖励模型开发以微调LLM的有效替代方案。特别是通过组合多个LLM,如上图所示,每个LLM专门负责特定类型的人类偏好(如相关性、简洁性、毒性等),这一方法能够补充对人工标注服务的需求,高效利用AI模型来微调其他AI模型。

这种技术被称为利用RLAIF实现的超级对齐(superalignment)。由于生成反馈的LLM通常被指示遵循特定的人类偏好或指导原则(例如,判断某话语是否符合道德标准),该方法亦被称作宪法AI。

此外,研究还发现,当偏好数据集可用时,可以完全绕过奖励建模和探索过程,直接调整LLM的参数以适应偏好数据集,这种技术被称为直接偏好优化(Direct Preference Optimization, DPO)。

这些方法——RLHF、RLAIF与DPO各有其优缺点,原因在于开发带有人工标注的显式偏好数据集与开发奖励模型在成本、时间和可移植性方面存在显著差异。本文将详细阐述这三种方法的优缺点,以帮助确定哪种方法最适合特定的应用场景。其中,将重点介绍RLAIF,并展示如何实现RLAIF流程以微调预训练的大型语言模型。

使用人类偏好微调LLM:RLHF/RLAIF与DPO

RLHF可用于帮助LLM与人类的偏好和价值观对齐。具体方法包括:收集人类对LLM当前行为的反馈,并利用这些反馈来训练奖励模型。一旦奖励模型被参数化,便可以通过强化学习来模拟微调LLM,这一过程通常比直接使用人类交互更为高效且成本更低。

此外,通过比较不同LLM的响应(例如,询问人类哪个响应更优),通常对人类来说更为直观,且无需明确界定人类的偏好或意图。

在RLHF的应用过程中,对齐效果可能受到提供反馈的人类群体(如信仰、文化、个人经历)以及标注员的指令影响,从而产生偏差。此外,构建一个能够同时满足所有人偏好或让所有人都认可其权衡的系统,可能是一个无法完全实现的目标。

因此,RLHF的研究方向已逐渐转向减少对人类反馈的依赖,最终目标是开发自动化AI方法、宪法AI以及更广泛的RLAIF,训练出即使在部分AI能力达到或超越人类水平时,仍能保持有益、诚实且无害的AI系统。

“在RLAIF中,一个预训练的LLM通过自然语言指示对另一个LLM(或自身)的响应进行批判和修订,以强化特定需求和人类偏好,或遵循更普遍的原则(如伦理价值观、有害内容潜力等)。”这种LLM反馈生成的人工智能标签可直接作为奖励信号,通过强化学习对LLM进行微调。近期研究显示,在摘要生成、有益对话生成和无害对话生成任务中,RLAIF的性能与RLHF相当甚至更优。

RLHF和RLAIF均可用于引导模型按期望方式运行,且两者均需预训练奖励模型。其关键区别在于训练奖励模型所依赖的人类反馈量。鉴于已有众多开源预训练奖励模型可供使用,本文将重点探讨利用现有奖励模型的RLAIF。

我们将展示如何借助现有奖励模型通过强化学习微调预训练的LLM,并评估其结果。该技术不依赖显式奖励模型,而是直接基于偏好数据集微调LLM。相比之下,本文聚焦的RLAIF则不使用显式偏好数据集,而是直接基于奖励模型进行LLM微调。

下图对比了通过策略优化(DPO)直接从偏好反馈中学习的过程,与借助奖励模型通过RLHF/RLAIF近端策略优化(PPO)探索和评分新响应的过程:

[左侧为DPO流程:偏好数据集→直接策略优化→对齐的LLM。右侧为 RLHF/RLAIF流程:偏好数据集→训练奖励模型→奖励模型+策略模型+PPO→对齐的LLM]

[左侧为DPO流程:偏好数据集→直接策略优化→对齐的LLM。右侧为 RLHF/RLAIF流程:偏好数据集→训练奖励模型→奖励模型+策略模型+PPO→对齐的LLM]

而为了进一步选择DPO与RLAIF在特定用例下的适配问题,下表总结了基于显式奖励模型的RLAIF与基于显式偏好数据集的DPO的优缺点。RLHF两者兼用,因此呈现出介于两者之间的优缺点概况。

简而言之,DPO直接省略了将偏好数据集提炼为中间奖励模型的步骤。DPO通过最大化偏好数据集中所选响应的对数似然与被拒绝响应的对数似然之间的差异,直接优化LLM的参数。数学上已证明,基于奖励的RLAIF/RLHF公式与无奖励的DPO公式是等价的,当在相同的提示分布上进行微调时,理论上应得到相同的结果。

然而,在实际应用中,多种因素可能导致不同的结果。例如,提示的分布可能因目标下游任务所需提示的认知差异而变化(微调期间探索的提示与实际或未来目标提示分布的关联程度不同),对微调数据集的访问权限(奖励模型比其原始训练数据集更具可移植性)以及微调数据集的质量和规模。当需要使用多个微调数据集时,访问权限、质量和规模等因素尤为重要。在这里插入图片描述

此表并非详尽无遗。在超级对齐的背景下,RLAIF可能具有显著优势,因为奖励模型易于测试、高效存储和访问,且可灵活组合以适应不同人群的多方面偏好。

然而,在撰写本文时,关于通用LLM微调(假设其他条件相同,例如数据集访问权限、目标提示分布等),RLHF、RLAIF和DPO的整体性能尚不明确,不同作者和基准测试倾向的结论不尽相同。

在决定如何微调LLM时,一些更通用的规则(按重要性排序)包括:

1、偏好数据集反馈的质量(如果可用);

2、策略优化算法的选择以及所涉及LLM的规模;

3、奖励模型的质量(如果可用);

4、用于微调的提示与LLM最终将使用的未来目标提示之间的预期重叠度。

用于 RLHF/RLAIF的人类偏好奖励模型类别

在RLHF中,最终的对齐质量取决于由偏好数据集衍生的奖励模型的特性。RLHF可能因提供反馈的人类群体(如信仰、文化、个人经历)以及给予这些人类标注员的指令而产生偏差。

此外,有效的RLHF调整通常需要数万个人类偏好标签,这不仅耗时且成本高昂。RLAIF通过组合多个以不同方式指示、专门负责特定人类偏好方面的LLM,能够更好地将LLM对齐扩展到超越人类直接监督的范围。

因此,为了充分利用RLAIF,仔细选择用于对齐目标LLM的奖励模型至关重要。要评估模型的对齐程度,首先需要澄清“对齐”(alignment)的含义。通过微调LLM使其按照人类意图行事,“对齐” 通常意味着模型具备有益性、诚实性和无害性:

有益性(Helpfulness)——LLM应遵循指令并准确推断用户意图。然而,用户输入提示背后的意图往往难以捉摸,通常处于未知、不清晰或模糊的状态。传统的有益性奖励模型依赖于人类标注员的判断,但如今,新一代LLM通过在类似标签上训练和微调,已能评估其他LLM的整体质量和有益性。特别是利用大型LLM来评估更小或更专业的LLM,从而提炼知识。

  • 诚实性/保真度(Honesty/Fidelity)——LLM不应捏造事实(即产生幻觉)。理想情况下,它们还应能识别何时无法回应。测量诚实性同样面临诸多挑战,因为LLM常产生幻觉,缺乏明确机制来识别自身知识的局限性。通常,这种测量仅限于评估模型对世界陈述的真实性,而这仅触及诚实性实际含义的表面。
  • 无害性/毒性(Harmlessness/Toxicity)——LLM不应生成带有偏见或有毒的响应。衡量语言模型危害性也面临诸多挑战,因为LLM的危害性通常取决于用户如何使用其输出。通常,可以使用代理标准(Proxy criteria)评估输出在特定用例背景下是否不当,或借助公共基准数据集和参数化模型来衡量偏见和毒性。本文中,通过使用Meta的AI奖励模型之一在摘要生成任务中微调某些LLM,以生成毒性更低的内容。

可以说,采用现有的奖励模型而非自行训练,并实现RLAIF算法,这将简化实现过程,同时避免重复劳动,因为许多奖励模型已经经过精心设计和公开共享。RLAIF在扩展超级对齐工作方面的一个显著优势在于,它能够整合多个奖励模型的来源(例如,通过取三个不同模型生成的奖励的平均值,每个模型专门负责评估特定类型的人类偏好,如有益性、诚实性或无害性)。

更广泛地讲,RLAIF能够以创新的方式引导LLM专注于特定的前沿需求,并通过引入AI系统的协作来协调其他AI系统,从而拓展超级对齐的范畴。以下是一个系统提示的示例,可作为通用模板用于指导LLM生成量化的奖励反馈:

“
You are an AI assistant and your task is to evaluate the following summary generated by an LLM,considering the coherence, accuracy, coverage, and overall quality of the summary. 
Please generate an evaluation score in a decimal number between 1.00 and 5.00.
Score 5.00 means the summary is the best optimal summary given the input text.  
Score 1.00 means the summary is really bad and irrelevant given the input text.


Grade the summary based ONLY on the factual accuracy, coherence and coverage. Ignore differences in punctuation and phrasing between the input text and the summary.


Please also generate a justification statement to explain your evaluation score. 
Keep the justification statement as concise as possible.


Here is the input text: (…)
Here is the summary generated by the LLM: (…)
”

通过采用显式且可扩展的奖励模型,RLAIF能够使LLM的行为适应特定用户群体,并通过确保LLM遵守预期的指导原则,进一步扩展红队对齐工作。

在根本层面上,无害性需求与有益性需求之间存在一个众所周知的平衡点——LLM越有帮助,其潜在的危害性往往也越大,反之亦然。

例如,对所有问题都回答“我不知道”通常是无害的,但也往往是无用的。

RLAIF特别适用于解决这种帕累托前沿(Pareto frontier)问题,即在有益性和无害性之间找到最优权衡。例如,假设收集了人类对LLM响应有益性的反馈,可以使用一个单独的毒性奖励模型来扩展自动红队改进工作,并在任何给定的(即使未定义的)有益性水平上维持低毒性。

结论

本文介绍了一种利用强化学习微调大型语言模型的先进方法,回顾了RLHF、RLAIF和DPO三种技术的优缺点,并详细说明了如何通过RLAIF扩展LLM的微调工作。

此外,文章还阐述了如何利用Hugging Face Transformer和TRL库实现端到端RLAIF的流程。该流程既支持在PPO阶段使用现成的毒性奖励模型来对齐响应,也允许直接提示LLM在PPO期间生成定量奖励反馈。

这一方法不仅增强了LLM在遵循人类偏好方面的能力,还展示了其在实际应用中的灵活性和可扩展性。通过RLAIF的引入,我们得以更细致地调整LLM的行为,确保其与预期的人类价值观和标准保持一致。同时,利用Hugging Face Transformer和TRL库的实现流程,大大简化了RLAIF的应用难度,使得更多开发者能够轻松上手并应用于各自的项目中。

文中提出的评估方法为我们提供了一种量化微调效果的手段,这对于持续改进LLM的性能至关重要,为大型语言模型的微调和应用开辟了新的道路,有望在未来的人工智能领域发挥更大的作用。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值