【Reasoning】Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision

辰阳星宇

已于 2024-12-09 17:00:27 修改

阅读量1.3k

点赞数 28

CC 4.0 BY-SA版权

分类专栏：科研论文文章标签：人工智能自然语言处理深度学习语言模型

于 2024-12-05 15:00:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41094332/article/details/144267087

Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision

arxiv: https://arxiv.org/abs/2406.06592

问题背景

COT和SC-COT对于模型推理能力的提升仍然有效，已有研究提出用一个验证器去帮助LLM提升推理能力。采用ORM结果验证器岁可以对最终结果生成一个信号，但是不能去奖励或者惩罚中间步骤。采用PRM可以对中间步骤在更细粒度的视角下，对中间步骤进行奖励或者惩罚。受到AlphaGo Zero的启发，本文提出了一个分而治之的蒙特卡洛树搜索算法OmegaPRM，来有效的收集高质量过程监督数据。

本文方法

这篇论文提出了一种名为OmegaPRM的新型分治风格蒙特卡罗树搜索（MCTS）算法，通过引入二分搜索算法来高效识别COT中的第一个错误快速定位错误位置，用于自动收集高质量的过程监督数据。

（1）蒙特卡洛过程标注方法

已有的方式是构建了一个『完成者』策略，接受一个问题q和一个包含前t步骤 $x_{1:t}$ 的前缀解决方案，并输出后续步骤的完成度。
在这里插入图片描述
在图里的(a)中，对于解决方案的任何步骤，可以使用更完备的策略从该步骤随机抽样k个rollout。然后，将这些rollout后得到的最终答案与正确答案进行比较，评估出一个前缀步骤的『正确性等级』，公式如下：

在这里插入图片描述
这种方式计算了从步骤t开始后所有rollout里得到正确答案的比例情况，这种方式需要从头到尾执行每个步骤的rollout，需要大量的调用，开销过大。

为了优化标注效率，本文提出了一种基于二分搜索的蒙特卡洛的方法。当解决方案中出现了第一个错误步骤时，这种数据就足以用来训练PRM。基于这种想法，本文的目标是有采用有效的方式定位第一个错误。主要是通过重复划分解决方案和执行rollout来实现这一点。

二分搜索定位错误大致流程：
假设我们的目标数据是真负例，首先从中点步骤m将其拆分，然后对前半步骤1:m执行rollout，当 $c_m>0$ 时，表示前半步骤中至少有一个步骤是正确的可以得到正确的答案，错误步骤在后半部分。当 $c_m=0$ 时，说明前半部分中很有可能有错误步骤，因为从该步骤往后进行rollout后的结果中没有一个是正确的。

以此方式不断迭代定位错误，直至到达停止条件（该解过程足够短，视为单个步骤）。从而将时间复杂度从O(kM)，缩短至O(klogM)。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

辰阳星宇 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。