基于人类反馈的强化学习微调:奖励模型训练与应用
一、奖励模型在 RLHF 中的重要性
奖励模型在基于人类反馈的强化学习(RLHF)中起着关键作用,它鼓励模型生成更符合人类偏好的完成内容,同时抑制非偏好的响应。确定什么是偏好和非偏好的内容,比跟踪汽车完成比赛的时间要复杂一些。为了确定什么是有用、诚实和无害的内容,通常需要人类使用如 SageMaker Ground Truth 这样的人工参与管理服务来标记上下文,以训练自定义奖励模型。
二、训练自定义奖励模型
2.1 奖励模型概述
奖励模型通常是一个分类器,用于预测两个类别之一:正类或负类,这类分类器也被称为二元分类器,且常基于像 BERT 这样的小型语言模型。市面上已经存在许多用于分类情感或检测有毒语言的语言感知二元分类器。如果这些分类器不适合你的用例,你可以训练自己的奖励模型。不过,训练自定义奖励模型是一项相对耗费人力和成本的工作,在投入这项工作之前,你应该先探索现有的二元分类器。
2.2 收集人工反馈训练数据集
训练自定义奖励模型的第一步是收集人类关于什么是有用、诚实和无害内容的数据,这被称为从人类注释者或标注者那里收集人类反馈。这一步通常涉及使用如 SageMaker Ground Truth 这样的管理服务。
在生成式场景中,常见的做法是要求人类注释者对给定提示的各种完成内容进行排名。通过相互比较完成内容的排名,人类标注者实际上为每个提示为你的奖励模型创建了多行训练数据。
以下是向人类标注者提供的示例说明:
- 通常,人类注释者会根据给定的标准对给定提示的完成内容进行排名,例如“请将完成内容从最有用到最
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



