FormalMATH Benchmark：推动AI极限的形式化数学基准-优快云博客

项目主页：https://spherelab.ai/FormalMATH/

GitHub: https://github.com/Sphere-AI-Lab/FormalMATH-Bench

Hugging Face：https://huggingface.co/SphereLab

论文：https://arxiv.org/pdf/2505.02735

随着大语言模型（LLMs）在自然语言处理和代码生成等任务中取得突破，形式化数学（formalized mathematics）逐渐成为测试其逻辑推理极限的关键任务之一。

相较于自然语言处理的模糊语义容忍度与代码生成的工程实用性，形式化数学以绝对的逻辑严密性构建起测试大语言模型推理能力的 “试金石”。这一领域要求模型将数学命题转化为精确的形式化语言，并在严格的公理系统内完成推导，任何语义歧义或推理断层都会导致证明失败。与传统任务不同，形式化数学的验证过程不依赖主观解释，而是由形式验证工具基于符号系统的一致性标准进行判定。这种 “零容错” 的结构化表达需求，使得模型在多步推理链条构建、抽象符号关系维护、复杂证明策略规划等方面的缺陷被彻底暴露。当前，构建包含高阶逻辑推理、跨领域知识迁移、反直觉证明路径探索的新型基准，已成为突破大语言模型数学推理能力瓶颈的重要方向。

5月5日，2077AI 开源社区联合香港中文大学、西湖大学、M-A-P、浙江大学、Max Planck 等研究机构，共同发布了 FormalMATH，这是目前 Lean4 领域最大规模、覆盖最广的形式化数学基准库。FormalMATH 包含5560道经严格验证的数学命题，题型涵盖奥林匹克竞赛与大学本科阶段相关内容，包括代数、微积分、数论、离散数学等十二个子领域。

FormalMATH 联合研究机构及单位

团队的系统性评估显示，即使是当前最先进的定理证明大语言模型，在此基准上，Pass@32成功率都仅为16.46%，反映出现有自动定理证明系统在多领域、高难度问题上的性能瓶颈。

1. 形式化数学自动推理的挑战

在追求通用数学推理能力的过程中，市面上已经有若干用于测试 LLM 的自动定理证明性能的基准集。但随着模型在这些测试集上快速“刷分”，它们逐渐暴露出规模和挑战性不足的问题。这促使研究团队重新思考自动推理评估体系的设计标准，特别是对于跨领域泛化、复杂逻辑结构处理能力等方面的能力考核。

形式化数学推理（Formal Mathematical Reasoning, FMR）要求模型在严格的逻辑系统（如Lean4）框架内，对数学命题进行严密的形式化表达并成功完成自动证明。这一任务对于AI系统的推理、泛化和符号化操作能力提出极高要求。

当前已有诸如 MiniF2F（244题）、ProofNet（186题）等基准广泛使用，但仍然存在以下不足：

领域覆盖有限：
主要集中于奥数、数论等初高中或本科基础领域，对部分数学领域涉足甚少，缺乏全面检验模型的知识结构。
规模受限：
问题数量较少，导致模型容易“学会套路”并刷分，难以考查其在面对新问题时的广泛泛化能力。
性能趋于饱和：
部分模型在上述测试集已取得80%以上的成功率，亟待更具挑战性的评估体系推动技术突破。

2. FormalMATH 基准集设计与数据集成

为攻克传统基准在规模、题型与挑战性上的固有桎梏，FormalMATH 项目自启动便锚定高质量、大规模、跨领域的系统性构建目标。在构建策略上，FormalMATH 打破依赖人工采样标注的传统范式，创新性地搭建多阶段 AI 自动化管线。该管线首先挖掘高价值数学命题，生成形式化命题，形成初步基准库。同时，项目引入专家人工校验环节，针对 AI 生成内容的逻辑严谨性、符号规范性进行深度审查，通过人机协同模式，既保证了基准构建效率，又确保了内容精度 —— 每个命题均符合形式化数学的严苛标准，实现效率与质量的双重突破。

2.1. 数据来源与领域分布

在实际构建过程中，团队面对最大挑战之一是如何以高质量和一致性扩展数千级命题样本的形式化版本。为此，开发团队设计了一套融合 LLM 编写、逻辑验证、多模型交叉检查和反证机制的自动化生成流水线，辅以专家人工审核，大幅提升数据处理效率和整体一致性。在这一机制的支持下，团队成功构建了结构清晰、分层合理的题库体系。为了覆盖形式化数学任务的广泛挑战性，数据集在题目数量与领域分布上均进行了系统性设计与优化，力求还原真实多样的推理场景。

截屏2025-05-13 14.42.08.png

FormalMATH 的领域分布

题目数量
：共5560道 Lean4 形式化命题，约为经典基准 MiniF2F 的22.8倍。
领域覆盖
：涵盖代数、应用数学、微积分、数论、预备微积分、离散结构、几何等12大领域，题目难度从奥赛级到本科高阶课程全面贯通。
难度分层
：数据来源广泛，包括 Omni-math、Numina-Olympiad、AIME、BlueMO、U-Math、HardMath、DEMIMATH 等国际数学资源与竞赛。

2.2. 多阶段自动化与人工校验 AI 流水线

为了支撑覆盖广泛、难度多元的题目体系，团队不仅面临规模化处理的工程挑战，更需确保每一道命题在形式化转换过程中逻辑严密、语义一致。为此，研究团队设计并实现了一套多阶段、自动与人工深度结合的数据生成与验证流水线，确保从自然语言到 Lean4 命题的全流程质量可控、语义准确。

用于创建和过滤数学形式化语句的人机协作流程

以下是从若干关键维度拆解的核心亮点与创新机制：

自定义形式化模型
项目使用通用 LLM 生成形式化数据，并筛选 Lean4 编译的数据，所有候选命题须经 Lean4 编译器自动检验，确保类型和语法严格正确，过滤掉不合法表达，使用收集到的数据训练自定义的 Autoformalization Models。
LLM多模型语义一致性判定
项目基于 o1-mini、Claude-3.5 Sonnet 等多种大模型，采取 Chain-of-thought 逆向翻译验证策略，对数学命题进行跨模型语义校验，要求所有通过样本需在多模型下自然语言与 Lean4 语义完全一致。实验数据显示，该环节可直接过滤60%以上语法正确但语义不符的样本，特别在高难领域，语义一致率更低，凸显该环节在复杂场景下的必要性。
逻辑否定-反证过滤
对于待测命题，系统自动构造其否定表达，并调用现有 LLM 证明器尝试自动“反证”，若获得成功证明则原命题自动剔除，进一步减少人工负担并提升最终有效性。
奥赛/专业级人工终审
12名拥有奥数金牌或高水平数学背景的专家，对剩余样本进行严格语义一致性人工审核，最终通过率为72.09%，显著优化标注效率。

这一混合式生成策略不仅显著减少了专家标注成本，也为今后其他形式系统任务构建高质量基准提供了可复制参考。

3. 大语言模型在 FormalMATH 上的定量评估

完成基准构建后，研究团队进一步系统评估了当前主流 LLM 证明器的性能表现。为了全面还原其在真实应用中处理高阶数学任务的能力，团队测试不同模型时采用了一致的设置，并观察模型在不同领域、难度层级上的通用推理能力。

3.1. 总体性能表现

在完整版 FormalMATH 数据集上，主流 LLM 自动定理证明器整体通过率显著低于传统基准，即便采用更高采样预算与集成方法，通过率相对提升有限，远未达到实用标准。

截屏2025-05-13 14.41.27.png

现有定理证明器在 FormalMATH Benchmark 上的性能比较

3.2. 分领域精度分析

尽管整体评估显示主流 LLM 在 FormalMATH 上的性能普遍受限，但具体到不同数学子领域，模型表现也体现出了差异。考虑到 FormalMATH 精细划分的领域标签，团队对各子领域的成功率进行了独立统计，试图揭示模型能力的“局部极限”与“结构性弱点”，为后续模型优化与训练策略提供指导。

代数/应用数学
：部分高中/本科代数与应用数学题目可达到10%-20%的成功率。
高等微积分/离散结构/高阶数论
：在这些领域，几乎所有模型表现大幅下降，很多任务成功率低于5%，部分领域（如高等分析、复分析）几乎为0。

造成显著领域偏向的原因是训练数据本身集中于低难题型，高阶领域训练数据高度稀疏。这一分析进一步表明，当前大模型在特定子领域并非完全“无知”，而是在训练分布、符号复杂度与结构深度的多重压力下逐步“失稳”。这不仅反映出训练数据设计的结构性偏差，也提示未来若希望实现跨领域泛化能力的跃迁，需系统性引入高阶推理任务的学习机制和表达范式。

3.3. 主要错误类型与模型“失效”机制

实验进一步揭示，在复杂任务场景中，大模型存在一系列系统性失效模式，说明当前推理架构和训练范式尚未真正适应形式系统对逻辑链条、细节表达和语义一致性的高标准要求。团队对模型在 FormalMATH 任务中的失败样本进行了定性归因与结构化分类，总结出以下主要失效模式：

截屏2025-05-13 14.48.10.png

不同 Lean4 错误模式占比

推理链路不完整
：大比例生成过程中步骤欠缺或中断，无法给出完整证明流程。
自动 TACTIC 滥用
：模型偏向频繁调用如 aesop、linarith 等自动化战术，导致多步骤推导被错误“压缩”为一步，遗漏关键信息或子目标分析。
冗余或错误假设引入
：如对变量、假设进行多余反复定义，引入无关信息扰乱证明结构。
复杂不等式与高阶推理能力不足
：自动不等式证明模块在遇到多变量高次不等式、对称结构等时失效。
目标语义与原始任务不一致
：自动形式化时常出现关键信息丢失或逻辑简化，导致命题描述与目标题目语义不一致。

这些失败机制指向了当前 LLM 在“从自然语言到形式语言”的映射过程中存在的结构性困难，也为未来推理能力建模和训练集优化提供了明确的突破口。

3.4. 推理提示实验结果

为进一步探查如何提升模型的推理表现，研究团队引入不同形式的推理提示（prompting），对比其对最终证明质量的影响。结果显示，提示策略的选择对模型的逻辑流程和语义一致性具有显著影响，提示设计本身也成为重要变量：

Naive CoT（链式注释逐步推理）
：表现最佳，能更好引导模型给出细颗粒度推理。
NL-augmented CoT（自然语言思路增强推理）
：出人意料地导致模型通过率下降，并出现推理困惑增加。

初步结论为，人类抽象层面的解题思路与形式系统下的严格、步骤化逻辑推理存在行动空间错配，模糊表达会造成模型逻辑链路中断甚至错误。这一系列提示策略实验，不仅揭示了 “人类思维方式” 与 “形式逻辑演绎” 之间的结构性鸿沟，更指明了提示工程的优化方向。传统自然语言任务中通用的提示范式，在面对符号推理任务时已难以奏效。未来的提示设计需深度结合形式化数学的逻辑特性，构建契合符号系统严格规则与结构化推理要求的专属策略，才能真正激活模型在数学推理领域的潜力，实现从 “自然语言理解” 到 “形式逻辑演绎” 的能力跃迁。

4. 总结和展望

综合基准设计、自动化构建流程与大模型性能分析，FormalMATH 项目从多个维度验证了现有自动定理证明系统在高阶、多领域数学任务中的能力瓶颈。该基准不仅为评估提供了更严苛的标准，也明确指出了推理策略、数据分布和符号表达层面的关键研究空白。团队系统的实验表明现有主流大语言模型总体有以下表现：

对低阶经典领域（代数等）仍有一定适应能力；
在泛化到高阶、广域数学时，推理链与自动化机制面临明显性能断层；
对于复杂、多步、细粒度的数理推导仍依赖人工介入，亟需在推理架构与多步规划上进一步突破。

针对模型综合表现，主流大模型的未来改进方向包括：

加强模型多步推理与分层计划能力，减少单纯自动战术依赖；
优化训练数据领域分布，实现更广泛的跨领域泛化；
构建更强人机协同交互验证机制，使LLM与专家证明形成正反馈闭环。

FormalMATH 的发布，为学术界和工业界提供了最新一代的严苛检验平台，推动 AI 自动数学推理能力持续向更广泛、更深层的知识挑战演进。

本次合作也体现了 2077AI 在推动开源AI基础能力突破中的持续投入与使命愿景，力求打造面向通用智能时代的数学基础设施，助力构建开放透明、系统可靠的AI研究范式。未来，2077AI 将继续推动形式化数学与大模型研究的深度融合，为 AI 系统迈向更高层级的逻辑能力和科学认知奠定基础。

整数智能，人工智能行业的数据合伙人。