一. Motivation:
指出现有的哪怕是前沿的LLM/LMM存在的一个问题就是,对于图像的数理分析很差,而且就这个方向来说目前还没有被系统的度量过,而度量的基础就是需要benchmark,为了加快在视觉上的数理推断的发展以及去评价现有的LLM/LMM对于严谨的推理工作的能力和进展,作者的初衷其实就是发现了问题,作为研究的基础工作开始,提出一个benchmark来为后续的工作奠定基础。
二.Contributions and Details:
2.1.setup的相关工作:
作者针对梳理分析,划分了7种数学推理的类型:
algebraic reasoning, arithmetic reasoning, geometry reasoning, logical reasoning, numeric common sense, scientific reasoning, and statistical reasoning;
5种关注的任务:figure question answering (FQA), geometry problem solving (GPS), math word problem (MWP), textbook question answering (TQA), and visual question answering (VQA);
数据的类型有:a diverse array of visual contexts, including natu