70%准确率+8B参数！StepFun-Prover开创数学定理证明新范式-优快云博客

70%准确率+8B参数！StepFun-Prover开创数学定理证明新范式

【免费下载链接】StepFun-Prover-Preview-7B 项目地址: https://ai.gitcode.com/StepFun/StepFun-Prover-Preview-7B

导语

阶跃星辰团队开源的StepFun-Prover-Preview-7B模型在MiniF2F-test基准测试中实现70%的Pass@1准确率，通过模仿人类数学家"推理-验证-修正"的工作流程，开创了形式化定理证明的新范式。

行业现状：大模型的"数学推理瓶颈"

大语言模型在自然语言处理领域取得突破的同时，在需要严格逻辑验证的数学定理证明领域仍面临挑战。InfoQ最新研究指出，当前大模型直接生成机器可验证的形式化证明能力较弱，但在"非正式推理"方面表现突出。这一矛盾催生了"工具集成推理"新方向——让大模型像人类数学家一样，通过与定理证明助手（如Lean4）交互来完善证明过程。

在MiniF2F-test等权威基准上，传统模型如DeepSeek-Prover-V2-671B和Kimina-Prover-72B的Pass@1准确率长期徘徊在60%-65%区间。而StepFun-Prover-Preview-7B以70%的成绩打破这一局面，尤其值得注意的是，其模型规模仅为8B参数，远小于竞品的百亿级参数量。

如上图所示，折线图清晰展示了StepFun-Prover系列与其他主流模型的性能对比。StepFun-Prover-Preview-7B以8B参数规模达到了与671B参数的DeepSeek-Prover-V2相当的性能，而32B版本更是以70%的准确率超越所有已知同类模型4%以上。这一"以小胜大"的突破为AI数学推理提供了新的发展思路。

核心亮点：三大技术突破实现"人类级推理"

1. 动态推理框架：像调试代码一样修正证明

StepFun-Prover最核心的创新在于提出动态推理框架，使模型能够自主控制与Lean4环境的交互。这一过程类似程序员调试代码：

生成部分证明草图并包裹在<sketch>标签中
将代码发送至Lean4环境执行，获取成功结果或错误信息（<REPL>反馈）
分析反馈后修正证明步骤，直至最终验证通过

这种"生成-验证-修正"的循环机制，使模型能够处理复杂的数学推理任务。在最大公约数(gcd)与最小公倍数(lcm)关系证明案例中，模型最初因使用interval_cases tactic导致验证超时，通过分析REPL反馈，转而采用"变量替换+因数分解"的数学方法，成功将证明时间从60秒以上缩短至3秒内。

2. 两阶段训练：从基础能力到专家水平

团队采用分阶段训练策略构建模型能力：

监督微调(SFT)阶段：

第一阶段：使用开源Lean4数据建立基础代码补全能力
第二阶段：精选高质量冷启动数据，使模型掌握与验证环境交互的基本技能

工具集成强化学习(RL)阶段：

使用GRPO算法训练模型的环境交互能力
设计0-1奖励函数：证明通过得1分，否则0分
创新性采用"RL-SFT-RL"迭代优化：将强化学习中失败率高但最终成功的推理路径，筛选后重新用于监督微调

3. 性能跃升：小模型战胜大模型的实证

在MiniF2F-test基准测试中，StepFun-Prover系列展现出显著优势：

从图中可以看出，StepFun-Prover-Preview-7B在经过3-5轮环境交互后，准确率显著提升，最终达到70%的Pass@1水平，超越了参数规模大10倍的竞品模型。这表明通过优化推理过程而非单纯增加参数量，是提升复杂推理能力的更高效路径。

核心技术解析：动态推理框架

StepFun-Prover最核心的创新在于动态推理框架，该框架使模型能够像人类数学家一样与验证环境交互：

生成证明草图：模型生成部分证明步骤，并使用<sketch>标签包裹Lean4代码
获取环境反馈：将代码发送至Lean4环境执行，得到成功结果或错误信息（<REPL>反馈）
分析并修正：模型用自然语言分析反馈信息，继续生成或修正证明步骤
迭代优化：重复上述过程，直到最终输出确定答案

这种交互模式使模型能够处理复杂的数学推理任务，例如在最大公约数与最小公倍数关系证明中，模型通过分析REPL超时反馈，主动将"穷举法"改为"变量替换+因数分解"的数学方法，将证明时间从60秒以上缩短至3秒内。

行业影响：从数学证明到可信AI系统

StepFun-Prover的技术路径为AI推理能力提升提供了新思路，其影响已超出数学领域：

软件开发

模型展现的"形式化验证"能力可直接应用于代码正确性验证，特别是在区块链智能合约、自动驾驶系统等对安全性要求极高的场景。

科学发现

在物理、化学等需要复杂公式推导的领域，该技术可辅助科研人员验证假设、发现新定理。StepFun团队已基于相同技术路径开发StepFun-Formalizer模型，在数学形式化任务中实现84%准确率。

智能教育

动态推理过程可生成详细的解题步骤和错误分析，为个性化数学教育提供技术支撑。例如在不等式证明中，模型能展示多种证明思路并解释各自适用场景。

实践指南：快速上手与应用场景

环境准备

StepFun-Prover已开源，可通过以下命令获取：

git clone https://gitcode.com/StepFun/StepFun-Prover-Preview-7B

模型支持vLLM推理框架，推荐配置：

显存：≥24GB（支持4卡张量并行）
环境：Python 3.10+, PyTorch 2.0+, Lean4

基础使用示例

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_name = "Stepfun/Stepfun-Prover-Preview-7B"
model = LLM(
    model=model_name,
    tensor_parallel_size=4,
)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

formal_problem = """
import Mathlib

theorem test_theorem (x y z : ℝ) (hx : 0 < x) (hy : 0 < y) (hz : 0 < z) :
    (x^2 - z^2) / (y + z) + (y^2 - x^2) / (z + x) + (z^2 - y^2) / (x + y) ≥ 0 := by
""".strip()

system_prompt = "You will be given an unsolved Lean 4 problem. Think carefully and work towards a solution. At any point, you may use the Lean 4 REPL to check your progress by enclosing your partial solution between <sketch> and </sketch>. The REPL feedback will be provided between <REPL> and </REPL>. Continue this process as needed until you arrive at a complete and correct solution."

user_prompt = f"```lean4\n{formal_problem}\n```"

dialog = [
  {"role": "system", "content": system_prompt},
  {"role": "user", "content": user_prompt}
] 

prompt = tokenizer.apply_chat_template(dialog, tokenize=False, add_generation_prompt=True)

sampling_params = SamplingParams(
    temperature=0.999,
    top_p=0.95,
    top_k=-1,
    max_tokens=16384,
    stop_token_ids=[151643, 151666], # <｜end▁of▁sentence｜>, </sketch>
    include_stop_str_in_output=True,
)

output = model.generate(prompt, sampling_params=sampling_params)
output_text = output[0].outputs[0].text
print(output_text)

性能对比

该表格展示了不同形式化定理证明模型在基准测试集上的Pass@1准确率，其中StepFun-Prover-Preview-7B的准确率为66.0%，超越了同类7B模型和部分更大参数量模型。32B版本更是以70%的准确率刷新行业纪录，证明了该技术路线的先进性。

未来展望：迈向"自主数学家"

StepFun-Prover的成功验证了工具集成推理范式的有效性，团队计划在三个方向持续优化：

多模态交互

引入数学公式图像识别能力，支持从论文截图直接解析待证明命题，降低非专业用户使用门槛。

领域扩展

从纯数学推理扩展到物理、工程等应用科学领域的定理证明，例如热力学方程推导和电路设计验证。

用户协作

开发交互式证明助手，允许人类数学家与AI协同构建复杂证明，形成"人类-AI"混合智能系统。

随着技术演进，我们有望在3-5年内看到AI系统独立完成数学顶级期刊级别的原创性证明，这不仅将改变数学研究方式，更将为通用人工智能的发展提供关键支撑。

对于开发者和研究人员，现在正是探索这一前沿领域的最佳时机——无论是参与模型调优、扩展应用场景，还是研究推理机制，都可能在AI推理革命中占据先机。

行动指南

点赞收藏本文，关注AI数学推理技术前沿动态
立即访问项目地址体验70%准确率的定理证明模型
关注作者获取更多AI推理技术深度解析

项目地址: https://gitcode.com/StepFun/StepFun-Prover-Preview-7B

【免费下载链接】StepFun-Prover-Preview-7B 项目地址: https://ai.gitcode.com/StepFun/StepFun-Prover-Preview-7B

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考