3、微调(上一部分内容)
4、LLMs的对齐
大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式:
- 带有反馈的人工智能强化学习(Reinforcement Learning with Human Feedback, §4.1):使用人类标记的数据作为奖励信号。
- 带有AI反馈的强化学习(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反馈来解决可扩展性问题。
- 直接偏好优化(Direct Preference Optimization, §4.3):直接从成对的人类偏好数据中学习,不需要明确的奖励模型。
每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。
表2: 大型语言模型对齐方法的比较概述(2022-2024)
此表评估了突出的对齐技术在八个指标上的表现:
- RM1(显式或隐式奖励模型)
- RM2(点奖励或偏好概率模型)
- RM3(响应级或令牌级奖励)
- RM4(正向或负向奖励模型)
- F(反馈类型:人类或AI)
- RL1(参考模型或无参考模型的RL)
- RL2(在线策略或离线策略RL)
- O(在线/迭代或离线/非迭代优化)
通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习
监督微调(SFT)[45]一直是引导大型语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,注释数据的多样性和质量可能是不均衡的,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此,提出了基于强化学习(RL)的微调来解决这些不足。在RL方法中,基于人类反馈的强化学习(RLHF)[104]是最早且最具影响力的基于RL的训练后对齐方法之一。
如图8所示,RLHF首先以偏好标签或奖励信号的形式收集人类

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



