本文是LLM系列文章,针对《Let’s Verify Step by Step》的翻译。
摘要
近年来,大型语言模型在执行复杂多步推理的能力方面有了很大提高。然而,即使是最先进的模型也经常出现逻辑错误。为了训练更可靠的模型,我们可以转向结果监督,为最终结果提供反馈,也可以转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及人工反馈的高昂成本,仔细比较这两种方法非常重要。最近的工作已经开始进行这种比较,但许多问题仍然存在。我们进行了自己的调查,发现过程监督在训练模型解决具有挑战性的MATH数据集中的问题方面明显优于结果监督。我们的过程监督模型解决了MATH测试集代表性子集中78%的问题。此外,我们发现主动学习显著提高了过程监督的效率。为了支持相关研究,我们还发布了PRM800K,这是一个包含80万步级人类反馈标签的完整数据集,用于训练我们的最佳奖励模型。
1 引言
2 方法
3 大规模监督
4 小规模合成监督
5 OOD泛化
6 讨论
7 相关工作
8 结论
我们已经证明,在数学推理领域,过程监督可以用来训练比结果监督更可靠的奖励模型。我们还表明,主动学习可用于降低人类数据收集的成本,方法是只为人类
订阅专栏 解锁全文
801

被折叠的 条评论
为什么被折叠?



