Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

本文是LLM系列文章,针对《Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems》的翻译。

模仿、探索和自我提升:慢思维推理系统的再现报告

摘要

最近,慢思维推理系统,如o1,在解决复杂推理任务方面表现出了显著的能力。这些系统在响应查询之前通常会进行一个扩展的思维过程,使它们能够生成更彻底、准确和合理的解决方案。这些系统主要由行业开发和维护,其核心技术未公开披露。作为回应,研究界越来越多的研究旨在探索这些强大推理系统背后的技术基础。在这些先前工作的基础上,本文提出了一份关于实现类o1推理系统的复制报告。我们引入了一个“模仿、探索和自我改进”框架,称为STILL-2,作为我们训练推理模型的主要技术方法。在初始阶段,我们使用提取的长形式思维数据来微调推理模型,使其能够调用缓慢的思维模式。然后,鼓励该模型通过生成多个展开来探索具有挑战性的问题,这可以产生越来越多的高质量轨迹,从而得到正确的答案。此外,该模型通过迭代改进其训练数据集来进行自我改进。为了验证这种方法的有效性,我们在三个具有挑战性的基准上进行了广泛的实验。实验结果表明,与这些基准上的行业级推理系统相比,我们的方法取得了具有竞争力的性能。我们发布我们的资源在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值