引言 🎨
在人工智能快速发展的今天,多模态大型语言模型(MLLMs)正在各个领域展现出卓越的性能,包括自然语言处理和计算机视觉等。然而,尽管在图像识别和生成等任务上取得了显著进展,我们依然面临一个重要的问题:这些模型是否真的能够理解和解读那些蕴含深刻意义的图像?
文化的深度与图像的表达 🌏
中国传统图像,尤其是中国传统山水画,不仅仅是自然风光的再现,更是哲学思想的传达。它们通过艺术技巧,诸如虚实结合、留白等手法,体现了人与自然的和谐。正如著名诗人苏轼所言:“诗画同源,工艺与清净共存。”这种深度的文化内涵,往往需要观者具备一定的文化素养才能真正领悟。
📊 CII-Bench的构建
为了解决当前MLLMs在理解中文图像深意方面的不足,我们提出了中文图像意图理解基准(CII-Bench)。该基准旨在全面评估MLLMs在中文环境下的感知、推理和理解能力。CII-Bench包含698幅图像,涵盖生活、艺术、社会、政治、环境和中国传统文化等多个领域。