知识图谱与多模态学习的关系研究综述P1(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)

文章汉化系列目录

知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5



摘要

 知识图谱(KGs)在推动各种人工智能应用中发挥着关键作用,语义网社区对多模态维度的探索则为创新开辟了新途径。在本次综述中,我们审慎地回顾了300多篇文章,聚焦于两个主要的知识图谱相关研究方向:一是知识图谱驱动的多模态(KG4MM)学习,即知识图谱支持多模态任务;二是多模态知识图谱(MM4KG),将知识图谱研究扩展至多模态知识图谱(MMKG)领域。我们首先定义了知识图谱和多模态知识图谱,并探讨了它们的构建进展。我们的综述涵盖了两大任务类别:知识图谱感知的多模态学习任务,如图像分类和视觉问答,以及本质上的多模态知识图谱任务,如多模态知识图谱补全和实体对齐,重点突出了具体的研究轨迹。对于大多数任务,我们提供了定义、评估基准,同时概述了开展相关研究的关键见解。最后,我们讨论了当前的挑战并识别了新兴趋势,例如大语言模型的发展和多模态预训练策略。本综述旨在为已经参与或考虑从事知识图谱和多模态学习研究的研究人员提供全面参考,帮助他们理解多模态知识图谱研究不断演变的格局,并支持未来的研究工作。

I 引言

 将知识推理和多模态感知彼此孤立地考虑,可能并不是最合适的策略。这与人类的认知过程类似,人类大脑随着时间积累的记忆构成了适应社会和生存的重要基础,使得有意义的行为和互动成为可能。这些记忆可以分为两大类。
 第一类记忆类似于条件反射。通过反复练习,人类发展出一种直觉性记忆,这种记忆增强了直觉和类比推理能力,通常被称为浅层知识。当这种浅层知识与视觉、听觉和触觉等感官输入结合时,使我们能够高效地完成基本任务。这一能力正是传统多模态任务的核心目标。多模态任务涉及来自多个模态的数据用于解决问题,比传统的单模态自然语言处理(NLP)或计算机视觉(CV)任务更贴近现实生活。例如,视觉问答任务在NLP问答任务的基础上结合了视觉数据,通过图像和文本问题来预测答案。同样,图像描述任务通过为图像生成描述性句子,扩展了自然语言生成的原则,从而提供对内容更全面的理解。因此,随着互联网的快速发展和带宽限制的消除,多模态信息源变得至关重要且易于获取,从而实现了对信息的更精准访问。
 第二类被称为“躯干到尾部知识”,在日常生活中较少遇到,通常不会形成条件反射。这类知识需要主动记忆或思考,突显了知识图谱(KGs)在捕获和构建长尾知识方面的重要性。尽管当前的大规模预训练在整合知识方面取得了进展,但也面临诸如幻觉现象和非一般知识模糊化等挑战。相比之下,我们的研究主要关注在知识图谱中利用符号化和结构化的知识。鉴于知识图谱在组织长尾知识中的关键作用以及其在众多成功的人工智能和信息系统中作为基础知识表示元素的有效性,将知识图谱与多模态学习整合显然提供了一个有前景的途径,有助于进一步应对这些现存的挑战。

A. 动机与贡献

在这里插入图片描述

 如图1所示,现实生活中的个体需要同时处理来自环境的多模态信息,并不断吸收和利用外部知识。这些元素不应彼此独立运作;相反,知识和多模态特性本质上是相互补充的。尽管存在这种内在联系,历史上这两个领域却独立发展。先前的研究要么聚焦于基于知识图谱增强的多模态学习,要么关注多模态知识图谱本身的研究。迄今为止,还没有研究或综述能对这两个领域进行全面而平衡的分析,导致其发展进一步分离。

 本文首先追溯了从传统知识图谱到多模态知识图谱的演变,指出了语义网社区关注点的变化。我们接着对知识图谱驱动的多模态任务进行分类,知识图谱在这些任务中作为关键的知识库,为推理和各种下游多模态任务提供了基础和必要知识。随后,我们探讨多模态技术对知识图谱的影响,分析其当前状态与未来前景。详细的分析涵盖了每项任务的方法学进展,并列出关键领域的基准,支持跨任务的有效比较。本综述主要关注近三年(2020-2023)的研究进展,并讨论了大语言模型(LLMs)的最新发展及其与所涉主题的相互作用。该综述适合所有人工智能研究者,尤其是那些深入研究知识驱动的多模态推理和跨模态知识表示的研究人员,同时也为语义网技术的从业者提供新的见解和参考。
文献收集方法:在本文中,我们主要通过Google Scholar和arXiv获取文献。Google Scholar为计算机科学领域的顶级会议和期刊提供了广泛的访问渠道,而arXiv则是涵盖多个学科的预印本关键平台,其中包含了计算机科学界认可的重要资源库。我们在这些平台上采用系统性的检索策略,使用相关关键词组合来构建参考文献。我们对所收集的文献进行严格筛选,手动过滤掉不相关的论文,并加入在主文中提到但最初被忽略的研究。借助Google Scholar的引文跟踪功能,我们通过迭代的深度和广度搜索来全面补充我们的文献清单。

B. 相关文献综述

一些研究对知识图谱(KGs)和多模态学习的相关文献进行了综述。不同于这些研究,我们的综述突出了特定的差异,如表I所示。
在这里插入图片描述

表I:我们综述与其他关于多模态学习和知识图谱相关综述论文的对比。缩写解释:D.S. Tasks(下游任务),Const.(构建),MLMPT(多模态语言模型预训练),Industrial App.(工业应用),4(代表“for”),Sci.(科学)。

  1. Zhu等人【7】主要从计算机视觉(CV)的视角探讨了主流多模态知识图谱(MMKGs)的各种特性及其构建方式,包括使用KG符号标注图像和符号-图像对齐等方面。相反,Peng等人【10】从语义网的视角对MMKG进行了详细分析,提供了MMKG的定义以及其构建和本体架构的分析。然而,这两项研究在任务方面提供的见解有限,未深入讨论MMKG的任务,如多模态实体对齐(MMEA)和多模态知识图谱补全(MKGC),可能忽视了MMKG的内在局限性。为全面理解MMKG所面临的挑战,有必要在不同学术和工业任务上进行广泛的基准测试和分析。

  2. Monka等人【8】概述了知识图谱嵌入(KGE)方法及其与高维视觉嵌入的整合,强调了知识图谱在视觉信息传递中的重要性。Lymperaiou等人【9】探讨了利用知识增强多模态学习,力图融合视觉语言表示和知识图谱的领域。然而,这些研究主要关注知识图谱对多模态任务的单向支持,忽视了知识图谱与多模态方法之间的双向反馈和协同演进。我们主张KG和多模态系统的协同发展,以克服应用障碍,推进通用人工智能(AGI)的实现。

  3. Zhu等人【7】和Peng等人【10】的分析基于截至2021年的进展,未能纳入MMKG社区的最新见解。同样,Monka等人【8】和Lymperaiou等人【9】的研究仅涵盖了截至2021和2022年的内容。针对2022至2023年AGI领域的快速进展,我们的综述深入探讨了MM4KG与KG4MM之间的复杂关系,重点关注如大语言模型(LLMs)、科学AI应用以及工业应用等新兴领域,以填补关键知识空白。我们的目标是为未来研究提供清晰的路线图,并突出这些快速发展的领域中的挑战和机遇。

C. 文章结构

 第II节介绍了基础内容,定义了知识图谱(KG)和多模态学习的关键概念,并概述了KG4MM和MM4KG的设置。第III节探讨了知识图谱的范围及构建,随后介绍了多模态知识图谱(MMKG)的演变。第IV节深入分析了各种KG4MM任务,详细说明了各任务的资源及过去三年开发的先进方法的基准,并将这些方法分为四种范式:理解与推理、分类、内容生成、检索和多模态预训练。第V节审查了MM4KG领域的任务,将关键任务划分为四个领域:MMKG获取、融合、推理和MMKG驱动任务。尽管按特定任务进行分类可能导致KG4MM和MM4KG方法的重叠,但这种方法有助于澄清研究图景并促进跨学科合作和任务整合。我们在描述细节时仔细平衡,以处理任务间的内容重叠,重点关注代表性任务。

 我们还分析了KG4MM和MM4KG的当前趋势及工业应用,提供了关于其在各个行业中影响的洞见。展望未来,第VI节探讨了多模态方法与(MM)KGs的进一步整合,提出了对前述任务的潜在增强。它还研究了在大语言模型(LLMs)和科学AI应用快速发展背景下,维持KG4MM和MM4KG增长的挑战和机遇。最后,第VII节对本文进行了总结。

II 初步概述

A. 知识图谱

自2007年左右诞生以来,知识图谱(KGs)在多个学术领域中发挥着关键作用,标志性的基础项目包括Yago【11】、DBPedia【12】和Freebase【13】。2012年谷歌在网页搜索中引入知识面板,标志着知识图谱应用的一个重要里程碑。这些知识图谱如今在增强谷歌和必应等搜索引擎中扮演重要角色,并且已成为亚马逊Alexa和苹果Siri等语音助手的核心,体现了其广泛的商业重要性和日益普及。

结构组成:知识图谱通过图结构来表示现实世界中的实体和关系,节点象征真实世界的实体或原子值(属性),边则表示关系。知识通常以三元组的形式呈现,如(杭州,位于,中国)。它们使用基于本体的模式(在第II-A节中讨论)来定义基本的实体类别及其关系,通常为分类结构。这种半结构化特性将结构化数据的明确语义(来自本体)与非结构化数据的灵活性相结合,允许通过新的类别和关系轻松扩展。

可访问性和优势:知识图谱支持多种下游应用,主要通过查找和查询方法来访问。
 知识图谱查找(也称为KG检索)基于输入字符串识别相关实体或属性,利用实体和关系标签中的词汇索引(表面)进行匹配。例如,DBpedia在线查找服务就是一个实例(https://lookup.dbpedia.org/)【12】。
 另外,查询是通过RDF查询语言SPARQL(https://www.w3.org/TR/rdf-sparql-query/)【2】编写的输入查询来返回结果。这些查询通常包含带有变量的子图模式,能够匹配并返回实体、属性、文字或完整的子图。
 需要注意的是,知识图谱(尤其是采用OWL本体的知识图谱)支持符号推理功能,包括一致性检查以识别逻辑冲突,以及通过描述逻辑进行蕴涵推理来推断隐藏的知识。知识图谱还促进了跨领域连接。例如,通过共同实体(如既是演员又是歌手的个体),可以将电影和音乐领域关联起来。这种互联性不仅增强了机器的理解能力,也提升了人类的认知水平,对搜索、问答和推荐等应用带来益处。此外,最近的大型语言模型(LLMs)发展突显了知识图谱的重要作用,尤其是在管理长尾知识方面,这已在多项研究中得到了验证【2–5】。
 1) 表述:为了与既有文献保持一致,我们首先介绍了广泛接受的知识图谱(KG)定义及其基本操作,随后从语义网的角度探讨了通过本体扩展的知识图谱。最后,我们从语义网之外的视角,广泛阐述了知识图谱的多种解释和用途。

 定义1:知识图谱。一个知识图谱(KG)记为 G = { E , R , T } G = \{E, R, T\} G={ E,R,T},由实体集合 E E E、关系集合 R R R 和声明集合 T T T 组成。一个声明可以是关系事实三元组 ( h , r , t ) (h, r, t) (h,r,t) 或属性三元组 ( e , a , v ) (e, a, v) (e,a,v)。具体而言,知识图谱由一组关系事实组成一个多关系图,其中节点表示实体( h h h t t t 分别代表实体 E E E 中的头实体和尾实体),边表示关系( r ∈ R r \in R rR)。对于属性三元组,属性 a a a a ∈ A a \in A aA)指示实体 e e e 具有对应值为 v v v v ∈ V v \in V vV)的某一属性。这些值可以包括各种字面量,如字符串或日期,并涵盖标签和文本定义等元数据,且可以通过内置或自定义的注释属性来表示。
 2) 本体:在语义网中,本体作为知识图谱的架构,使用RDFS和OWL等语言以确保语义更加丰富且质量更高【14】。本体的关键特征包括:

  • 层次化的类别,通常称为概念。
  • 指定用于关系中的术语的属性。
  • 包含概念和关系的层级结构。
  • 约束条件,包括关系的领域和范围,以及类的不相交性。
  • 包含关系组合的逻辑表达式。

RDF、RDFS和OWL等语言引入了内置词汇来捕捉这些知识元素,使用诸如 r d f s : s u b C l a s s O f rdfs:subClassOf rdfs:subClassOf 之类的谓词表示概念的包含关系, r d f : t y p e rdf:type rdf:type 则表示实例与概念的关联。此外,RDFS提供了 r d f s : l a b e l rdfs:label rdfs:label r d f s : c o m m e n t rdfs:comment rdfs:co

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值