论文速读|Quality Diversity through Human Feedback:Towards Open-Ended Diversity-Driven Optimization
论文信息:
简介:
本文的背景主要涉及两个领域:强化学习从人类反馈(Reinforcement Learning from Human Feedback, RLHF)和质量多样性(Quality Diversity, QD)算法。RLHF在缺乏明确性能指标的定性任务中显示出潜力,但通常用于优化平均人类偏好,这在需要模型响应多样性的生成任务中存在局限性。QD算法擅长识别多样且高质量的解决方案,但通常依赖于手动设计的多样性指标,这限制了其在复杂和开放领域任务中的适用性。
本文旨在结合这两种方法的优势,提出一种新的方法,