We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

最新推荐文章于 2025-11-26 15:49:07 发布

原创

最新推荐文章于 2025-11-26 15:49:07 发布 · 1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型

随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。然而，在逻辑性与知识系统性要求极高的数学任务中，模型仍然达不到像人类一样进行严密推理的水平，这一问题仍然是开放性难题。

本文作者来自北京邮电大学、腾讯微信、清华大学。共同第一作者为北京邮电大学博士生乔润祺与硕士生谭秋纳，其共同完成的代表性工作 We-Math 于 ACL 2025 发表，并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多个顶会中有论文发表。本文的通讯作者为博士生导师张洪刚与微信视觉技术中心李琛，We-Math 系列工作为乔润祺在微信实习期间完成。

论文标题：We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
论文链接：https://arxiv.org/abs/2508.10433
主页链接：https://we-math2.github.io/
代码链接：https://github.com/We-Math/We-Math2.0
数据集链接：https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。然而，在逻辑性与知识系统性要求极高的数学任务中，模型仍然达不到像人类一样进行严密推理的水平，这一问题仍然是开放性难题。

对此，我们仍然认为理想的学习范式应该是让模型先掌握所需的知识，再进一步提升泛化能力。基于这一思考，我们提出了 We-Math2.0：

1. MathBook Knowledge System：我们首先搭建了一个系统性、完整、相对正交的知识体系：包含 5 个层级，491 个知识点与 1819 个知识原理，覆盖了小学、初中、高中以及部分大学及竞赛的知识。

2. MathBook-Standard：基于知识体系，我们发现开源数据集存在无法完整覆盖、知识无法完成解构等问题，对此我们选择对每个知识体系进行手动构建题目、画图，并结合一题多图、一图多题两种思想，实现每个知识原理对应包含多个问题。

3. MathBook-Pro：我们希望进一步构造一个以模型为中心的数据空间来提升泛化能力。基于 MathBook-Standard 与知识体系，我们通过题目所需知识点数量、视觉复杂度、场景复杂度等三个维度对题目难度进行延展，将一条训练数据拓展为 8 个不同难度的样本。

4. 训练策略：基于所构建的数据集，我们首先通过 1000 条数据进行 SFT 冷启动微调，旨在改变模型的输出范式，进一步首先利用 MathBook-Standard 的数据，构建了均值奖励，旨在通过以知识原理为单位对模型进行奖惩。在此基础上，我们利用 MathBook-Pro 的数据，构建了动态调度训练（知识调度与模态调度）从而提升模型的泛化能力。

5. MathBookEval: 为了进一步评测模型在全面知识与推理深度层面的能力，我们提出了包含 1000 条样本的 MathBookEval

为了实现严谨、高质量、具备高复杂度的图像数据，我们的全部数据均为手动利用 Geogebra 专业化软件新渲染而成，我们希望先通过手动构造高精度的数据来验证这一思想的可行性。

目前不仅在 X 上收获了一定的关注度，并且荣登 Huggingface Paper 日榜第一名！