摘要
多模态预训练的发展凸显了鲁棒多模态知识图(MMKG)表示学习框架的必要性。该框架对于将结构化知识大规模集成到多模态大语言模型(llm)中至关重要,旨在缓解知识误解和多模态幻觉等问题。在这项工作中,为了评估模型在mmkg中准确嵌入实体的能力,我们专注于两个被广泛研究的任务:多模态知识图完成(MKGC)和多模态实体对齐(MMEA)。在此基础上,我们提出了一种新的SnAg方法,该方法利用基于transformer的架构,配备了模态级噪声掩蔽,用于KGs中多模态实体特征的鲁棒集成。通过结合MKGC和MMEA的特定训练目标,我们的方法在总共10个数据集(MKGC 3个,MEMA 7个)上实现了SOTA性能,展示了其鲁棒性和通用性。此外,SnAg不仅可以作为一个独立的模型,还可以增强其他现有的方法,提供稳定的性能改进。
1.介绍
知识图(Knowledge Graphs, KGs)中对多模态维度的探索已经成为语义网领域的关键力量,促进了各种人工智能应用的进步。随着大语言模型(LLMs)和多模态预训练的发展,构建鲁棒、全面的多模态知识图(MMKG)表示学习框架的必要性日益凸显。这样的框架对