知识图谱与多模态学习的关系研究综述P4(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)

文章汉化系列目录

知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5



V 多模态知识图谱任务

V-A MMKG表征学习

当前主流的MMKG表征学习方法主要集中在A-MMKGs上,因为它们与传统知识图谱的相似性使其更容易适应各种范式转变。这些用于在MMKG中整合实体模态的方法通常分为两大类,这些类别在不同框架中有时会出现重叠。

(i)晚期融合(Late Fusion)【55】、【65】、【415】、【425】、【447】、【476】、【477】方法强调模态间的交互和权重分配,通常在输出生成之前通过求和、拼接、多层感知器(MLPs)或门控机制进行特征聚合。MKGRL-MS【477】 设计了独特的单模态嵌入,通过多头自注意力机制确定每个模态在语义组成中的贡献,并对加权后的多模态特征求和以生成MMKG实体表示。MMKRL【447】 在一个统一的翻译语义空间中学习跨模态嵌入,通过拼接融合每个实体的模态嵌入。最近的基于Transformer的方法【65】、【425】引入了用于多模态实体对齐的细粒度实体级模态偏好。DuMF【476】 是一种双轨方法,利用双线性层进行特征投影,并在每个轨道中使用注意力块进行模态偏好学习,最终通过一个门控网络将这些特征整合为一个统一的表示。
(ii)早期融合(Early Fusion)【62】、【387】、【454】、【478】、【479】方法在初始阶段整合多模态特征,使得模态间能够进行更深入的交互,适合复杂的推理任务。这种方法有助于形成统一而强大的实体表示,增强其与其他模型整合时的兼容性。CMGNN【478】 首先使用多层感知器(MLP)将实体模态标准化为统一的嵌入,然后通过与扰动后的负样本进行对比来优化这些嵌入。MMRotatH【479】 采用门控编码器整合文本和结构数据,在基于旋转动力学的知识图谱嵌入(KGE)框架中过滤掉不相关信息。最近的研究【62】、【68】、【387】、【454】利用了BERT和ViT等(V)PLMs进行多模态数据整合,将图结构、文本和图像格式化为序列或密集嵌入,以便兼容语言模型(LMs)。通过这样做,能够利用这些模型的推理能力以及其参数中嵌入的知识来支持多模态链接预测等任务。

V-B MMKG 采集

MMKG获取(或提取) 是指通过整合文本、图像、音频和视频等多模态数据来构建多模态知识图谱(MMKG)。这一过程利用来自其他来源的多模态信息,例如互联网搜索引擎或公共数据库,来增强现有的知识图谱或开发新的MMKG,从而实现对复杂、相互关联概念的全面理解。生成的MMKG利用每种模态的独特优势,提供更加一致和详细的知识表示。

V-B1 多模态命名实体识别和关系抽取

1) 多模态命名实体识别与关系抽取:命名实体识别(NER)用于识别和分类文本中的命名实体,将其归类为人名、组织和地点等。例如,在句子“Apple Inc.是由Steve Jobs在加利福尼亚创立的”中,NER模型会识别出“Apple Inc.”为组织、“Steve Jobs”为人名、“California”为地点。多模态命名实体识别(MNER)进一步扩展了这一功能,通过结合视觉信息在多模态情境中显著提升NER的效果【480】,【481】。如图11(左)所示,假设有一条社交媒体帖子,配有Elon Musk站在SpaceX标牌前的照片,并附有文字说明:“在发射场的美好一天!”。MNER模型不仅会利用文本信息(如“Elon Musk”和“SpaceX”),还会识别图像中的实体。该视觉信息强化了对“Elon Musk”为人名和“SpaceX”为组织的识别。

关系抽取(RE)是检测和分类文本中实体之间的语义关系。例如,使用同一句话,RE可以辨别出“Apple Inc.”与“Steve Jobs”之间的“创立于”关系。多模态关系抽取(MMRE)则结合视觉信息来丰富文本关系分析,特别在新闻文章分析等应用中效果显著,此类应用中文本通常与相关图像或视频一同出现。

如图11(右)所示,假设有一篇体育报道,配有LeBron James和Stephen Curry在NBA比赛中的照片,并附带文字说明:“今晚比赛的史诗对决!”在此情境下,MMRE模型会同时分析文本和视觉内容,解释视觉线索(如他们的竞争姿态和球队标志),从而推断出他们在比赛中作为对手的竞争关系。

MNER与MMRE的重叠点:通常,MNER和MMRE都通过结合视觉信息来增强文本分析,但它们的关注点不同:MNER聚焦于识别实体,而MMRE则聚焦于分类这些实体之间的关系。在MMKG构建框架中,MMRE可以视为MNER的后续任务。尽管如此,这些任务的开发方法正在日益融合,许多研究在MNER和MMRE中使用了相似的模型设计【377】【393】【396】。因此,我们在本节中将它们一起讨论。

定义8:多模态命名实体识别(MNER)。MNER通常被视为一个序列标注问题,其中模型输入一个句子 x l = { w 1 , w 2 , … , w L } x_l = \{w_1, w_2, \dots, w_L\} xl={ w1,w2,,wL} 及关联的图像 x v x_v xv,识别文本中的命名实体并确定其类别。MNER的目标是预测标签序列 Y = { y 1 , … , y n } Y = \{y_1, \dots, y_n\} Y={ y1,,yn},其中每个标签 y i y_i yi 对应于句子中每个标记 w i w_i wi 的命名实体类别。此过程包括标签序列的概率计算,遵循NER中的基础序列标注技术【482】。

定义9:多模态关系抽取(MMRE)。MMRE分析句子 x l = { w 1 , w 2 , … , w L } x_l = \{w_1, w_2, \dots, w_L\} xl={ w1,w2,,wL} 及其对应的图像 x v x_v xv,专注于句中的实体对 ( e 1 , e 2 ) (e_1, e_2) (e1,e2),任务是结合文本和图像线索(例如图像中的对象交互)来分类这些实体之间的关系。对于每个潜在关系 r i ∈ R r_i \in R riR,分配一个置信评分 p ( r i ∣ e 1 , e 2 , x l , x v ) p(r_i|e_1, e_2, x_l, x_v) p(rie1,e2,xl,xv)。关系集合 R = { r 1 , … , r C , N o n e } R = \{r_1, \dots, r_C, None\} R={ r1,,rC,None} 包括预定义的关系类型,其中“None”表示没有特定关系。

MNER方法的演进:MNER的进步可以通过多种视觉和文本信息集成方法的演变来衡量。

  1. 基于BiLSTM的方法:早期的研究【365】【368】【369】【483】【484】主要采用一种模态注意力网络来融合文本和图像特征,在LSTM中引入视觉注意力门,以增强对社交媒体帖中命名实体的理解。随着Transformer模型的普及,基于预训练语言模型(PLM)的方法成为主流。

  2. 基于PLM的方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值