摘要
共同注意是儿童早期语言发展的关键组成部分,也是亲子互动有效性的重要指标。然而,目前对共同注意的检测和分析研究仍然有限,尤其是在多模态大语言模型(MLLMs)方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频,评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段,作为评估模型解释能力的基准。我们的研究结果显示,由于当前的多模态大语言模型对儿童发起的眼神交流(这是共同注意动态的关键组成部分)缺乏细致的理解,它们难以准确地解释共同注意。本研究强调了纳入详细眼神交流信息以增强多模态大语言模型多模态推理能力的重要性。弥补这些差距对于未来推进多模态大语言模型在分析和辅助亲子互动方面的研究至关重要。
引言
在亲子互动中,共同注意、玩耍和模仿对促进儿童语言发展至关重要。其中,共同注意在培养沟通和语言技能方面起着基础性作用。当两个人同时关注同一物体或事件,并通过眼神交流、手势或言语表达来分享他们的体验时,共同注意就产生了。这种机制有助于建立共享焦点,使父母和婴儿能够实现语言学习所需的社会协调。
尽管已经开发了一些技术来增强共同注意,但关于检测亲子互动中共同注意的研究却很少。随着多模态大语言模型的兴起,这类模型在处理对话和分析多模态内容方面展现出了优势,为识别亲子视频中的共同注意片段提供了有前景的工具。
为了填补这一空白,