本文是LLM系列文章,针对《NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models》的翻译。
摘要
理解多模态大型语言模型(MLLMs)的推理能力是一个重要的研究领域。在这项研究中,我们引入了一个动态基准NPHardEval4V,旨在解决在评估MLLM的纯推理能力方面存在的差距。我们的基准测试旨在提供一个场所,将图像识别和指令遵循等各种因素的影响与模型的整体性能区分开来,使我们能够专注于评估它们的推理能力。它是通过将问题的文本描述从NPHardEval转换为图像表示来构建的。我们的研究结果揭示了不同模型之间推理能力的显著差异,并突出了MLLM在推理方面与LLM相比相对较弱的性能。我们还研究了不同提示风格,包括视觉、文本以及视觉和文本组合提示,对MLLMs推理能力的影响,展示了多模态输入对模型性能的不同影响。与主要关注静态评估的传统基准不同,我们的基准将每月更新一次,以防止过度拟合,并确保对模型进行更真实、更细粒度的评估。我们相信,这个基准可以帮助理解和指导MLLMs推理能力的进一步发展。基准数据集和代码在https://github.com/lizhouf/NPHardEval4V可用。