With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models

本文是LLM系列文章,针对《With Ears to See and Eyes to Hear:
Sound Symbolism Experiments with Multimodal Large Language Models》的翻译。

用耳朵看,用眼睛听: 多模态大型语言模型的声音象征实验


多模态大型语言模型的声音象征实验)

摘要

最近,在测试心理语言现象的实验中,大型语言模型(LLMs)和视觉语言模型(VLMs)已经证明了作为人类参与者的潜在替代品的能力。然而,一个研究不足的问题是,只有视觉和文本模式的模型在多大程度上能够通过仅从拼写和图像进行抽象推理来隐含地理解基于声音的现象。为了研究这一点,我们分析了VLM和LLM展示声音象征意义的能力(即识别声音和概念之间的非任意联系),以及它们通过开放和闭源多模态模型的语言和视觉模块的相互作用“听到”的能力。我们进行了多项实验,包括复制经典的Kiki Bouba和Mil-Mal形状和大小象征任务,并将人类对语言象似性的判断与LLM的判断进行比较。我们的结果表明,VLMs与人类标签的一致性程度不同,与计算机模拟实验中的人类标签相比,VLMs可能需要更多的任务信息。我们还通过更高的最大一致性水平看到,幅度象征比形状象征更容易被VLM识别,并且对语言象似性的理解在很大程度上取决于模型大小。

1 引言

2 相关工作

3 形状象征

4 规模象征

5 标志性评级

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值