本文是LLM系列文章,针对《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》的翻译。
摘要
从人类反馈中强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好相匹配,但收集高质量的人类偏好标签是一个关键瓶颈。我们对人工智能反馈(RLAIF)中的RLHF与RL进行了正面比较,这是一种由现成的LLM代替人类标记偏好的技术,我们发现它们也带来了类似的改进。在总结任务中,在约70%的情况下,人类评估者更喜欢RLAIF和RLHF的生成,而不是基线监督的微调模型。此外,当被要求对RLAIF和RLHF摘要进行评分时,人类更喜欢两者的评分相同。这些结果表明,RLAIF可以产生人类水平的性能,为RLHF的可扩展性限制提供了一个潜在的解决方案。
1 引言
2 前言
3 RLAIF方法
4 实验细节
5 结果
6 定性分析
7 相关工作
8 结论
在这项工作中,我们表明RLAIF可以在不依赖人工注释器的情况下产生与RLHF相当的改进。我们的实验表明,RLAIF在SFT基线上有很大的改善,改善幅度与RLHF相当。在头对头的比较中,RLAIF和RLHF以相似的比率被人类所偏好。我们还研究了各种人工智能标记技术,并进行了缩放研究,以了解生成一致偏好的最佳设置。
虽然这项工作突出了RLAIF的潜力,但我们注意到这些发现的一些局限性。首
RLAIF通过现成的大型语言模型替代人类标注,实现与RLHF类似的效果,有效扩展强化学习。实验显示,RLAIF在约70%的情况下,其生成内容被人类评估者偏好,且与RLHF相当。尽管存在一些局限性,如任务推广性和经济成本,RLAIF展示了在不依赖人工注释的情况下达到人类水平性能的潜力,为强化学习的规模化提供可能。
已下架不支持订阅
2万+

被折叠的 条评论
为什么被折叠?



