Fine-Tuning Language Models from Human Preferences

chansonzhang

已于 2024-01-04 22:00:42 修改

阅读量1.3k

点赞数 20

分类专栏： NLP Papers NLP AI 文章标签：语言模型人工智能自然语言处理

于 2023-12-30 12:57:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chansonzhang/article/details/131487560

版权

NLP Papers 同时被 3 个专栏收录

54 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

68 篇文章

订阅专栏

60 篇文章

订阅专栏

本文探讨了如何结合预训练语言模型和人类偏好进行强化学习微调，应用于自然语言处理任务如文本风格延续和总结。通过少量人类评估数据训练奖励模型，调整策略以优化预期奖励。实验结果显示，这种方法在某些任务上取得良好效果，但在总结任务中模型倾向于拷贝而非创造性的抽象概括。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

奖励学习（reward learning）可以将强化学习（RL）应用到由人类判断定义奖励的任务中，通过询问人类问题来构建奖励模型。奖励学习的大部分工作使用了模拟环境，但是关于价值的复杂信息经常是以自然语言的形式表达的。我们相信语言奖励学习是使强化学习在现实世界任务中实用且安全的关键。在本文中，我们基于语言模型生成式预训练方面的进展，将奖励学习应用于四种自然语言任务：

continuing text with positive sentiment or physically descriptive language
summarization tasks on the TL;DR and CNN/Daily Mail datasets.

对于风格延续（stylistic continuation）任务，我们仅使用人类评估的 5,000 个比较就取得了良好的结果。
对于 summarization 任务，只使用 60,000 个比较训练的模型可以从输入中复制整个句子但跳过不相关的序言。
根据人类标注者的评估，这带来了合理的 ROUGE 分数和非常好的性能，但可能是利用了标注者依赖简单启发法这一事实。

1. Introduction

我们希望将强化学习应用于仅由人类判断定义的复杂任务，在

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。