本文是LLM系列文章,针对《Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems》的翻译。
摘要
最近,慢思维推理系统,如o1,在解决复杂推理任务方面表现出了显著的能力。这些系统在响应查询之前通常会进行一个扩展的思维过程,使它们能够生成更彻底、准确和合理的解决方案。这些系统主要由行业开发和维护,其核心技术未公开披露。作为回应,研究界越来越多的研究旨在探索这些强大推理系统背后的技术基础。在这些先前工作的基础上,本文提出了一份关于实现类o1推理系统的复制报告。我们引入了一个“模仿、探索和自我改进”框架,称为STILL-2,作为我们训练推理模型的主要技术方法。在初始阶段,我们使用提取的长形式思维数据来微调推理模型,使其能够调用缓慢的思维模式。然后,鼓励该模型通过生成多个展开来探索具有挑战性的问题,这可以产生越来越多的高质量轨迹,从而得到正确的答案。此外,该模型通过迭代改进其训练数据集来进行自我改进。为了验证这种方法的有效性,我们在三个具有挑战性的基准上进行了广泛的实验。实验结果表明,与这些基准上的行业级推理系统相比,我们的方法取得了具有竞争力的性能。我们发布我们的资源在