
文章主要内容和创新点
主要内容
本文介绍了WE-MATH 2.0,这是一个用于增强多模态大语言模型(MLLMs)数学推理能力的统一框架。该框架整合了结构化数学知识体系、模型中心的数据空间建模和基于强化学习(RL)的训练范式,旨在全面提升MLLMs在复杂数学推理(尤其是视觉数学问题)中的表现。具体包括四个核心部分:
- MathBook知识体系:一个五级分层结构,涵盖491个知识点和1819个基本原理,为数学推理提供系统化的知识支撑。
- 数据集构建:包括MathBook-Standard(通过“一题多图”和“一图多题”实现概念灵活性)和MathBook-Pro(基于“步骤复杂度”“视觉复杂度”“语境复杂度”三维难度空间生成7个渐进变体)。
- MathBook-RL训练框架:两阶段强化学习,包括冷启动微调(对齐知识导向的思维链推理)和渐进对齐RL(结合平均奖励学习和动态数据调度,实现跨难度水平的渐进对齐)。
- MathBookEval基准:覆盖所有491个知识点,包含不同推理步骤分布,用于全面评估模型的数学推理能力。
实验结果表明,WE-MATH 2.0在四个主流基准测试中表现优异,尤其在泛

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



