MMKGR: Multi-hop Multi-modalKnowledge Graph Reasoning(ICDE2023)
摘要
多模态知识图谱(MKG)不仅包括关系三元组,还包括相关的多模态辅助数据(即文本和图像),增强了知识的多样性。 然而,MKG 的天然不完整性极大地阻碍了其应用。 为了解决这个问题,现有的研究采用基于嵌入的推理模型在融合多模态特征后推断缺失的知识。 然而,这些方法的推理性能由于以下问题而受到限制:(1)多模态辅助特征融合不力; (2)缺乏复杂的推理能力,无法进行多跳推理,推断出更多缺失的知识。 为了克服这些问题,我们提出了一种名为 MMKGR(多跳多模态知识图推理)的新模型。 具体来说,该模型包含以下两个组成部分:(1)统一的门注意网络,旨在通过充分的注意交互和降噪来生成有效的多模态互补特征; (2) 一种互补的特征感知强化学习方法,该方法被提出,基于在组件(1)中获得的特征,通过执行多跳推理过程来预测缺失元素。
一、介绍
多模态知识图(MKG)不仅包含结构数据,还包含额外的多模态辅助数据(即文本和图像),与现实世界数据相比更符合现实世界数据的特征 。尽管MKG包含丰富的信息,但它仍然受到KG天然不完整性的影响,上图中遗漏了一个三元组(泰坦尼克号、主演、凯特·温斯莱特),这极大地阻碍了MKG的应用。
为了解决知识图谱自然不完整性的问题,人们提出了各种知识图谱推理方法。 这些方法的关键思想是通过有效整合图中现有信息来推断新知识,并且它们主要关注传统知识图谱,而不考虑多模态知识。一些推理模型[64][65][61][45][53][50]被提出来整合MKG上的多模态知识,但它们是基于模型TransE[3] 仅专注于完成单跳推理。 值得注意的是,单跳推理模型缺乏可解释性并且推理性能较低,因为知识图谱在多跳中具有最多的推断潜在知识[8]。 相应地,还有另一流专注于多跳推理的知识图谱推理方法。 该流中的代表性方法是基于强化学习(RL)的多跳推理,因为它能够利用知识图谱中关系的符号组合和传输[56],这使得整个推理过程可解释[58]。
基于强化学习的多跳KG推理模型不仅具有语义可解释性,而且比单跳推理模型具有更高的推理性能[27][18][81],这促使我们的研究重点关注多跳KG推理模型。 MKG 中的跳跃推理。 需要注意的是,现有的知识图谱领域的多跳推理方法目前还没有集成多模态信息。
挑战一是知识图谱推理领域缺乏细粒度的多模态信息利用方法。
多项多模态研究表明,细粒度特征有利于在推理任务中获得准确的结果[24]、[73]。 通常,大多数现有的 MKG 推理方法除了结构信息之外,仅学习一种模态信息(例如文本或图像)的单独注意力分布。
例如,我们仅从“泰坦尼克号”这个实体的形象就可以推断出《泰坦尼克号》是一部关于两个人互相拥抱的爱情电影。 最后但并非最不重要的一点是,一些不相关的噪声(例如图像中的黑色背景)和冗余噪声(与 Rose Bukater 的图像相比,Kate Winslet 的图像高度相似且包含的有用信息较少)损害了模型的鲁棒性和泛化性。 模型[4],[25]。 如何通过同时解决上述问题来学习细粒度的知识在 MKG 推理领域中并非易事。
挑战二在于直接将基于RL的KG推理方法扩展到MKG推理很容易产生一些错误的推理路径并降低推理性能。 这是因为多模态辅助数据的引入进一步加剧了稀疏奖励问题,从而导致强化学习的决策偏差。
大多数状态下缺乏反馈奖励和盲目推理[27]。 一些KG推理方法试图缓解这个问题,但它们仍然存在以下