11、基于人类反馈的强化学习微调：奖励模型训练与应用

c6d7e8f9g

于 2025-10-27 10:59:37 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：驾驭生成式AI的未来文章标签： RLHF 奖励模型人类反馈

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/154515061

驾驭生成式AI的未来专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于人类反馈的强化学习微调：奖励模型训练与应用

一、奖励模型在 RLHF 中的重要性

奖励模型在基于人类反馈的强化学习（RLHF）中起着关键作用，它鼓励模型生成更符合人类偏好的完成内容，同时抑制非偏好的响应。确定什么是偏好和非偏好的内容，比跟踪汽车完成比赛的时间要复杂一些。为了确定什么是有用、诚实和无害的内容，通常需要人类使用如 SageMaker Ground Truth 这样的人工参与管理服务来标记上下文，以训练自定义奖励模型。

二、训练自定义奖励模型

2.1 奖励模型概述

奖励模型通常是一个分类器，用于预测两个类别之一：正类或负类，这类分类器也被称为二元分类器，且常基于像 BERT 这样的小型语言模型。市面上已经存在许多用于分类情感或检测有毒语言的语言感知二元分类器。如果这些分类器不适合你的用例，你可以训练自己的奖励模型。不过，训练自定义奖励模型是一项相对耗费人力和成本的工作，在投入这项工作之前，你应该先探索现有的二元分类器。

2.2 收集人工反馈训练数据集

训练自定义奖励模型的第一步是收集人类关于什么是有用、诚实和无害内容的数据，这被称为从人类注释者或标注者那里收集人类反馈。这一步通常涉及使用如 SageMaker Ground Truth 这样的管理服务。

在生成式场景中，常见的做法是要求人类注释者对给定提示的各种完成内容进行排名。通过相互比较完成内容的排名，人类标注者实际上为每个提示为你的奖励模型创建了多行训练数据。

以下是向人类标注者提供的示例说明：
- 通常，人类注释者会根据给定的标准对给定提示的完成内容进行排名，例如“请将完成内容从最有用到最

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。