OpenAI o1复现：自动构造prm训练数据-OmegaPRM

AIBigModel

于 2024-10-23 16:23:24 发布

阅读量1.8k

点赞数 13

CC 4.0 BY-SA版权

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/143187489

作者：cmathx
原文：https://zhuanlan.zhihu.com/p/1477078851

openai o1复现中，有个比较关键的问题，怎么样自动化构造prm模型的训练数据？本文主要从代码层面，来解析OmegaPRM原理。

论文

Improve Mathematical Reasoning in Language...[1]

原理

Markov决策过程

OmegaPRM

State：对应Markov决策过程中的状态，rollout：对应Markov决策过程中的动作；

• step1：初始化root节点state；每个state包含n个扩展rollouts，q+pa作为prompt，进行n次llm生成采样；基于bootstrap采样方法估计Monte Carlo模拟正确答案的概率mc；
• step2：从所有节点中，基于UCB1（Explore&&Exploit方法）选取最优的“state和rollout”，添加到PRM训练集；Exploit：alpha ** (1 - mc) * beta ** (len(r) / L)，其中：mc表示蒙特卡洛模拟正确答案概率、len(r)表示LLM生成的长度；Explore：c_puct * sqrt(N_sum) / (1 + s.v)，其中：N_sum表示所有节点的访问次数，s.v表示当前节点的访问次数，c_puct控制MCTS树的探索程度；
• step3：评估最优“state和rollout”，二分rollout的结果，将左半部分纳入到新的state中，并计算新的mc；mc=1，表示state完全包含正确答案，忽略；mc=0，表示state完全没有生成正确答案可能性，添加到叶子节点；mc>0，表示state作为继续探索的节点；
• step4：重复step2、step3，直至“探索到足够的样本、无法继续探索”退出；
• step5：将叶子节点全部添加到PRM训练集；

PRM模型训练效果

论文的base模型

基于OmegaPRM方法合成数据，在MATH数据集，相比base model51%的准确率，OmegaPRM准确率提高到69.4%；

其他PRM方法

OmegaPRM：gemini提到的方法；

Alpha

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。