一、文章主要内容
(一)研究背景
现有多模态大型语言模型(MLLMs)虽在各类视觉数学推理基准测试中表现出色,但这些基准大多基于清晰或经过处理的多模态输入,未纳入现实世界中小学(K-12)教育场景下用户拍摄的图像,难以评估模型在真实环境中的表现。
(二)MATHREAL基准构建
- 数据集规模与来源:包含2000道数学题,均为通过手持移动设备在真实场景下拍摄的图像,源自K-12教育材料,如课本、试卷和印刷练习题。
- 图像分类:将真实图像系统分为三大类14个子类,分别是图像质量退化(模糊、曝光不足/过度、阴影覆盖、眩光等)、视角变化(旋转、平面内倾斜、非平面拍摄、背景失真等)、无关内容干扰(手写问题、背面内容、题目标记、图形标记等)。
- 题目分类:涵盖五大核心知识能力类别(平面几何、立体几何、逻辑推理、函数图像、统计图表)、三种题型(选择题、填空题、构造性应答题)以及三个难度等级(小学、初中、高中)。
- 数据集特征:部分题目同时提供真实图像和清晰图像,还包含一个480道题的testmini子集,且每个题目都有人工标注的真实问题文本、图形描述和正确答案。
(三)实验设计与结果
- 实验设置:设计六种实验设置,逐步分离视觉感知和推理能力,定义三种主要输入模态(仅图像、带人工标
订阅专栏 解锁全文
1216

被折叠的 条评论
为什么被折叠?



