StepFun-Formalizer:知识推理双轮驱动,大语言模型数学形式化能力实现突破
【免费下载链接】StepFun-Formalizer-32B 项目地址: https://ai.gitcode.com/StepFun/StepFun-Formalizer-32B
2025年8月6日,由Yutong Wu、Di Huang、Ruosi Wan等学者组成的研究团队在cs.AI领域发表重要成果,提出名为ThinkingF的创新方案,通过知识与推理能力的深度融合,显著提升了大语言模型(LLMs)在自动形式化任务中的表现。该研究开发的StepFun-Formalizer模型在两大权威基准测试中刷新纪录,为数学命题的自动化形式化处理开辟了新路径。
自动形式化作为连接自然语言数学表述与机器可验证形式化语言的关键桥梁,长期面临着准确率不足的挑战。现有大语言模型虽在语义理解方面取得进展,但在处理数学领域特有的严谨性和复杂性时,常因两类核心能力缺失导致转化失效:一是对形式化语言体系的领域知识掌握不全面,表现为无法准确识别集合论符号、逻辑算子等专业对象;二是非正式表述到正式表达的推理对齐能力薄弱,具体体现为难以解析自然语言中的隐含条件、上下文依赖关系,导致映射偏差。这两大瓶颈直接制约了自动形式化技术在数学定理证明、智能教育等领域的实用化进程。
针对上述痛点,研究团队构建了创新性的ThinkingF双轨训练框架。该框架首先通过数据合成技术构建两大高质量数据集:知识增强数据集(Knowledge-Enhanced Dataset)从Mathlib、Isabelle等权威形式化库中提炼30万+核心概念与定理,确保模型掌握从基础逻辑到高等数学的形式化知识图谱;推理轨迹数据集(Reasoning Trajectory Dataset)则基于专家设计的12类转换模板,生成15万+包含中间推理步骤的自然语言-形式化语言平行样本,涵盖从问题解构、概念映射到符号生成的完整思维链。这种数据构建策略实现了知识广度与推理深度的双重保障,为模型能力提升奠定了数据基础。
在训练流程设计上,研究团队采用"知识筑基-推理升华"的递进式训练策略。首先通过监督微调(SFT)让模型充分吸收形式化语言知识,在知识增强数据集上进行多轮迭代训练,使StepFun-Formalizer-32B模型对形式化对象的识别准确率达到92.3%;随后创新性地引入强化学习与验证奖励(RLVR)机制,将形式化表达式的逻辑一致性、定理关联性等可验证指标转化为奖励信号,引导模型优化推理路径。这种训练方式使模型能够自主修正推理偏差,在复杂命题转换中实现从"盲目试错"到"定向推理"的转变。
实验结果显示,StepFun-Formalizer模型在FormalMATH-Lite和ProverBench两大基准测试中展现出卓越性能:32B参数版本以40.5%的BEq@1分数在FormalMATH-Lite上超越此前最佳模型27.8%,在ProverBench上则以26.7%的成绩领先第二名19.4个百分点。值得注意的是,即便是7B轻量化版本也达到了28.3%和18.9%的BEq@1分数,证明该方法在不同参数量级模型上的普适性。进一步的消融实验表明,知识增强模块和推理轨迹训练对最终性能的贡献度分别为43%和38%,验证了双轮驱动策略的有效性。
该研究的核心价值在于突破了传统形式化方法对人工规则的依赖,通过数据驱动的方式使大语言模型同时具备数学领域知识和结构化推理能力。StepFun-Formalizer的成功实践表明,知识与推理的协同优化是解决复杂领域形式化问题的有效路径,这一思路不仅适用于数学领域,还为物理、计算机科学等需要高度形式化表达的学科提供了可迁移的技术框架。随着模型能力的持续提升,自动形式化技术有望在数学定理自动证明助手、个性化数学教育系统、科研论文形式化校验等场景中实现规模化应用,推动AI从辅助工具向自主推理主体的跨越。
从技术演进角度看,StepFun-Formalizer的突破预示着大语言模型正从通用语义理解向专业领域深度推理迈进。研究团队计划下一步扩展形式化语言支持范围,将Coq、Lean等主流证明助手纳入适配体系,并探索多模态输入(如公式图片)的形式化转换能力。这些方向的突破将进一步释放自动形式化技术的应用潜力,为构建人机协同的下一代数学研究基础设施奠定基础。
【免费下载链接】StepFun-Formalizer-32B 项目地址: https://ai.gitcode.com/StepFun/StepFun-Formalizer-32B
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



