A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

3、微调(上一部分内容)

4、LLMs的对齐

大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式:

  • 带有反馈的人工智能强化学习(Reinforcement Learning with Human Feedback, §4.1):使用人类标记的数据作为奖励信号。
  • 带有AI反馈的强化学习(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反馈来解决可扩展性问题。
  • 直接偏好优化(Direct Preference Optimization, §4.3):直接从成对的人类偏好数据中学习,不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述(2022-2024)

此表评估了突出的对齐技术在八个指标上的表现:

  • RM1(显式或隐式奖励模型)
  • RM2(点奖励或偏好概率模型)
  • RM3(响应级或令牌级奖励)
  • RM4(正向或负向奖励模型)
  • F(反馈类型:人类或AI)
  • RL1(参考模型或无参考模型的RL)
  • RL2(在线策略或离线策略RL)
  • O(在线/迭代或离线/非迭代优化)

通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调(SFT)[45]一直是引导大型语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,注释数据的多样性和质量可能是不均衡的,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此,提出了基于强化学习(RL)的微调来解决这些不足。在RL方法中,基于人类反馈的强化学习(RLHF)[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示,RLHF首先以偏好标签或奖励信号的形式收集人类

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值