摘要
多模态知识图(Multimodal knowledge graphs, MKGs)可以直观地以不同的方式组织信息,有利于多种实际的下游任务,如推荐系统和视觉问题回答。然而,大多数MKG推理模型还远未完成,这促使了MKG推理模型的蓬勃发展。近年来,随着通用人工体系结构的发展,预训练变压器模型越来越受到人们的关注,特别是在多模态场景下。然而,针对知识图推理(KGR)的多模态预训练变压器(MPT)的研究还处于起步阶段。MKG数据与其他多模态数据的最大区别在于,MKG数据所蕴含的丰富的结构信息在现有的MPT模型中仍然不能被充分利用。它们大多只是利用图结构作为检索图来匹配与同一实体相连的图像和文本。这种方式阻碍了他们的推理表现。为此,我们提出了用于知识图推理的图结构引导多模态预训练变压器,称为SGMPT。具体来说,采用图结构编码器对结构特征进行编码。然后,设计了一种以结构为导向的融合模块,采用加权求和和对齐约束两种策略,将结构信息同时注入到文本特征和视觉特征中;据我们所知,SGMPT是第一个用于多模态KGR的MPT模型,它挖掘了知识图底层的结构信息。在FB15k-237-IMG和WN18-IMG上的大量实验表明,我们的SGMPT优于现有的最先进模型,并证明了所设计策略的有效性。