一、文章主要内容总结
本文提出了APOLLO系统,这是一种将大型语言模型(LLM)与Lean形式验证系统相结合的自动化定理证明框架,旨在解决传统方法中LLM生成证明效率低、错误率高的问题。APOLLO通过模块化流程实现了对LLM生成证明的自动化修复,具体包括语法修正(Syntax Refiner)、错误块隔离(Sorrifier)、自动求解(Auto Solver)和递归修复(Recursive repair)等步骤。通过Lean编译器的实时反馈,APOLLO能够定位证明中的语法错误和逻辑漏洞,将复杂定理分解为子引理,并利用LLM和自动求解器逐步修复,最终组合成完整有效的证明。
在miniF2F基准测试中,APOLLO显著提升了多种模型的性能:
- 对于7B参数模型,APOLLO将Kimina-Prover-Preview-Distill-7B的准确率提升至75.0%,刷新了当前最优结果(SOTA),同时将采样预算从数千次降低至数百次。
- 通用模型(如o3-mini、o4-min