本文是LLM系列文章,针对《CODIS: Benchmarking Context-Dependent Visual Comprehension
for Multimodal Large Language Models》的翻译。
摘要
多模态大型语言模型(MLLMs)在将视觉和语言相结合的各种任务中已经证明了有希望的结果。随着这些模型在研究和应用中越来越不可或缺,对其能力进行全面评估变得越来越重要。然而,大多数现有的基准都没有考虑到,在某些情况下,需要在更广泛的背景下解释图像。在这项工作中,我们引入了一个新的基准,名为CODIS,旨在评估模型使用自由形式文本中提供的上下文来增强视觉理解的能力。我们的研究结果表明,MLLMs在这一基准上始终达不到人类的表现。进一步的分析证实,这些模型很难有效地提取和利用上下文信息来提高他们对图像的理解。这强调了迫切需要提高MLLM以依赖上下文的方式理解视觉效果的能力。我们的项目网站https://thunlp-mt.github.io/CODIS。