Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention_towards a multimodal large language-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146034874

摘要

共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交流（这是共同注意动态的关键组成部分）缺乏细致的理解，它们难以准确地解释共同注意。本研究强调了纳入详细眼神交流信息以增强多模态大语言模型多模态推理能力的重要性。弥补这些差距对于未来推进多模态大语言模型在分析和辅助亲子互动方面的研究至关重要。