论文阅读:2023 ICLR Safe RLHF: Safe Reinforcement Learning from Human Feedback

总目录 大模型安全相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328

Safe RLHF: Safe Reinforcement Learning from Human Feedback
安全 RLHF:通过人类反馈进行安全强化学习

https://arxiv.org/pdf/2310.12773

https://github.com/PKU-Alignment/safe-rlhf

https://www.doubao.com/chat/3556303170287106

国内首个可复现的RLHF基准,北大团队开源 PKU-Beaver

速览

  • 研究动机:大语言模型发展中,平衡性能与安全至关重要,现有方法在平衡有用和无害性上存在挑战。
  • 研究问题:如何设计算法平衡大语言模型有用性和无害性,使其兼具帮助性、安全性与回应意愿?
  • 研究方法:提出Safe RLHF算法,解耦人类偏好,构建奖励和成本模型,利用拉格朗日法在微调时平衡两个目标。
  • 研究结论:实验表明Safe RLHF能有效提升大语言模型的帮助性和无害性,优于静态平衡算法。
  • 不足:无法获取预训练数据,SFT数据质量和规模不足,缺乏前后检查策略且成本高。

这篇论文叫《SAFE RLHF: SAFE REINFORCEMENT LEARNING FROM HUMAN FEEDBACK》,主要是说随着大语言模型(LLMs)发展,要平衡模型性能和安全性,提出了Safe RLHF算法来解决相关问题。下面从背景、方法、实验等方面,用通俗的话来讲讲具体内容。

  1. 研究背景:大语言模型在很多方面表现出色,但它生成的内容不能有害,像歧视、错误信息等都不行。强化学习从人类反馈(RLHF)是让大语言模型符合人类偏好的好方法,不过追求有用性和无害性这两个目标在实际中会相互矛盾。比如模型拒绝回答问题,虽然安全但没什么用。所以,研究的目标就是要开发出既有用、又安全还愿意回答问题的大语言模型。
  2. 研究方法:提出Sa
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值