DeepSeek-Prover-V1:大语言模型定理证明能力的突破性进展
在数学推理领域,形式化证明助手(如Lean)凭借其极高的准确性和可靠性,已成为数学研究中不可或缺的工具。然而,尽管大型语言模型(LLMs)在自然语言处理和一般性数学推理任务中展现出巨大潜力,但在需要高度逻辑严谨性的形式化定理证明领域,其发展却因高质量训练数据的匮乏而受到严重制约。为了突破这一瓶颈,DeepSeek团队提出了一种创新方法,通过生成大规模基于Lean 4的形式化证明数据来训练大语言模型。该方法包括将自然语言数学问题(主要来自高中和大学本科数学竞赛)转化为形式化命题,对这些命题进行质量筛选,并自动生成相应的形式化证明,从而构建了一个规模庞大的合成数据集。
基于此合成数据集,研究团队对DeepSeekMath 7B模型进行了精细微调。该合成数据集包含800万条带有完整证明的形式化命题。微调后的模型在Lean 4 miniF2F测试集上取得了显著成果:在64样本设置下,整体证明生成准确率达到46.3%,累积准确率更是高达52%。这一成绩不仅大幅超越了GPT-4在相同64样本设置下23.0%的基线水平,也超过了采用树搜索强化学习方法所取得的41.0%的成绩。更令人瞩目的是,在难度更高的Lean 4形式化国际数学奥林匹克(FIMO)基准测试中,该模型成功证明了148个问题中的5个,而GPT-4在该基准上未能证明任何一个问题。这些结果有力地证明了利用大规模合成数据提升大语言模型定理证明能力的巨大潜力。为了推动该领域的进一步研究,DeepSeek团队将公开发布其合成数据集和训练后的模型。
在miniF2F-test这一广泛使用的定理证明评估基准上,DeepSeek-Prover-V1模型展现出了卓越的性能。具体数据显示,ReProver模型的准确率为26.5%,GPT-f模型为36.6%,Hypertree Proof Search方法达到41.0%,而DeepSeek-Prover-V1模型则以50.0%的准确率位居榜首,充分体现了其在形式化定理证明任务上的领先优势。
为了促进全球科研社区在形式化定理证明和大语言模型数学推理领域的研究,DeepSeek团队决定公开发布DeepSeek-Prover-V1模型及其配套的大规模合成数据集。 模型与数据集的具体下载方式如下:
- DeepSeek-Prover-V1模型:可通过🤗 HuggingFace平台获取。
- 合成数据集:同样可在🤗 HuggingFace平台下载。
关于本项目的许可协议,代码仓库采用MIT许可协议。DeepSeek-Prover系列模型的使用则受特定的模型许可协议约束。值得注意的是,DeepSeek-Prover模型支持商业用途。有关代码许可和模型许可的更多详细信息,请分别参阅LICENSE-CODE文件和LICENSE-MODEL文件。
如果您在使用DeepSeek-Prover-V1模型或相关数据集的过程中有任何疑问、建议或发现问题,请通过在项目仓库中提交issue的方式反馈,或直接发送邮件至service@deepseek.com与DeepSeek团队联系。
DeepSeek-Prover-V1模型的发布,标志着大语言模型在处理高度形式化、逻辑密集型任务方面迈出了重要一步。通过开源其模型和数据集,DeepSeek团队不仅为学术界和工业界提供了强大的工具,也为未来探索更复杂的数学推理、自动定理发现乃至更广泛的科学发现领域开辟了新的可能性。随着更多研究者的参与和改进,我们有理由相信,基于大语言模型的自动定理证明系统将在不久的将来为数学研究和教育带来革命性的变化。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



