本文是LLM系列文章,针对《NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models》的翻译。
摘要
理解多模态大型语言模型(MLLMs)的推理能力是一个重要的研究领域。在这项研究中,我们引入了一个动态基准NPHardEval4V,旨在解决在评估MLLM的纯推理能力方面存在的差距。我们的基准测试旨在提供一个场所,将图像识别和指令遵循等各种因素的影响与模型的整体性能区分开来,使我们能够专注于评估它们的推理能力。它是通过将问题的文本描述从NPHardEval转换为图像表示来构建的。我们的研究结果揭示了不同模型之间推理能力的显著差异,并突出了MLLM在推理方面与LLM相比相对较弱的性能。我们还研究了不同提示风格,包括视觉、文本以及视觉和文本组合提示,对MLLMs推理能力的影响,展示了多模态输入对模型性能的不同影响。与主要关注静态评估的传统基准不同,我们的基准将每月更新一次,以防止过度拟合,并确保对模型进行更真实、更细粒度的评估。我们相信,这个基准可以帮助理解和指导MLLMs推理能力的进一步发展。基准数据集和代码在https://github.com/lizhouf/NPHardEval4V可用。
1 引言
2 相关工作
3 基准构建
4 实验设置
5 结果
6 结论和讨论
在本文中,我们扩展了NPHardEval4V的最初引入,这是一个动态和全面的基准

本文提出NPHardEval4V基准,用于评估多模态大型语言模型(MLLMs)的动态推理能力。此基准通过将问题从文本转换为图像表示,专注于模型的推理性能,揭示了不同模型之间的显著差异,并每月更新以防止过拟合。研究发现,模型的性能受输入类型(如视觉、文本或两者结合)影响,强调了动态评估工具对于理解和提升MLLMs的重要性。
订阅专栏 解锁全文
774

被折叠的 条评论
为什么被折叠?



