本文是LLM系列文章,针对《With Ears to See and Eyes to Hear:
Sound Symbolism Experiments with Multimodal Large Language Models》的翻译。
多模态大型语言模型的声音象征实验)
摘要
最近,在测试心理语言现象的实验中,大型语言模型(LLMs)和视觉语言模型(VLMs)已经证明了作为人类参与者的潜在替代品的能力。然而,一个研究不足的问题是,只有视觉和文本模式的模型在多大程度上能够通过仅从拼写和图像进行抽象推理来隐含地理解基于声音的现象。为了研究这一点,我们分析了VLM和LLM展示声音象征意义的能力(即识别声音和概念之间的非任意联系),以及它们通过开放和闭源多模态模型的语言和视觉模块的相互作用“听到”的能力。我们进行了多项实验,包括复制经典的Kiki Bouba和Mil-Mal形状和大小象征任务,并将人类对语言象似性的判断与LLM的判断进行比较。我们的结果表明,VLMs与人类标签的一致性程度不同,与计算机模拟实验中的人类标签相比,VLMs可能需要更多的任务信息。我们还通过更高的最大一致性水平看到,幅度象征比形状象征更容易被VLM识别,并且对语言象似性的理解在很大程度上取决于模型大小。