MATHREAL: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal

一、文章主要内容

(一)研究背景

现有多模态大型语言模型(MLLMs)虽在各类视觉数学推理基准测试中表现出色,但这些基准大多基于清晰或经过处理的多模态输入,未纳入现实世界中小学(K-12)教育场景下用户拍摄的图像,难以评估模型在真实环境中的表现。

(二)MATHREAL基准构建

  1. 数据集规模与来源:包含2000道数学题,均为通过手持移动设备在真实场景下拍摄的图像,源自K-12教育材料,如课本、试卷和印刷练习题。
  2. 图像分类:将真实图像系统分为三大类14个子类,分别是图像质量退化(模糊、曝光不足/过度、阴影覆盖、眩光等)、视角变化(旋转、平面内倾斜、非平面拍摄、背景失真等)、无关内容干扰(手写问题、背面内容、题目标记、图形标记等)。
  3. 题目分类:涵盖五大核心知识能力类别(平面几何、立体几何、逻辑推理、函数图像、统计图表)、三种题型(选择题、填空题、构造性应答题)以及三个难度等级(小学、初中、高中)。
  4. 数据集特征:部分题目同时提供真实图像和清晰图像,还包含一个480道题的testmini子集,且每个题目都有人工标注的真实问题文本、图形描述和正确答案。

(三)实验设计与结果

  1. 实验设置:设计六种实验设置,逐步分离视觉感知和推理能力,定义三种主要输入模态(仅图像、带人工标
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值