NLP论文速读(ICML 2024)|通过人的反馈实现质量多样性(Quality Diversity through Human Feedback:Towards Open-Ended ……)

论文速读|Quality Diversity through Human Feedback:Towards Open-Ended Diversity-Driven Optimization

论文信息:

图片

简介:

      本文的背景主要涉及两个领域:强化学习从人类反馈(Reinforcement Learning from Human Feedback, RLHF)和质量多样性(Quality Diversity, QD)算法。RLHF在缺乏明确性能指标的定性任务中显示出潜力,但通常用于优化平均人类偏好,这在需要模型响应多样性的生成任务中存在局限性。QD算法擅长识别多样且高质量的解决方案,但通常依赖于手动设计的多样性指标,这限制了其在复杂和开放领域任务中的适用性。

      本文旨在结合这两种方法的优势,提出一种新的方法,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值