MATHVISTA: EVALUATING MATHEMATICAL REASONING OF FOUNDATION MODELS IN VISUAL CONTEXTS

一. Motivation:

  指出现有的哪怕是前沿的LLM/LMM存在的一个问题就是,对于图像的数理分析很差,而且就这个方向来说目前还没有被系统的度量过,而度量的基础就是需要benchmark,为了加快在视觉上的数理推断的发展以及去评价现有的LLM/LMM对于严谨的推理工作的能力和进展,作者的初衷其实就是发现了问题,作为研究的基础工作开始,提出一个benchmark来为后续的工作奠定基础。

二.Contributions and Details:

  2.1.setup的相关工作:

  作者针对梳理分析,划分了7种数学推理的类型:

  algebraic reasoning, arithmetic reasoning, geometry reasoning, logical reasoning, numeric common sense, scientific reasoning, and statistical reasoning;

  5种关注的任务:figure question answering (FQA), geometry problem solving (GPS), math word problem (MWP), textbook question answering (TQA), and visual question answering (VQA);

  数据的类型有:a diverse array of visual contexts, including natu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值