知识图谱与多模态学习的关系研究综述P2(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)

文章汉化系列目录

知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5



IV. 基于知识图谱驱动的多模态学习任务

本节探讨了知识图谱(KGs)在提升多模态学习任务中的作用。作为重要的符号知识载体,知识图谱为需要丰富背景知识的多种任务提供支持,包括但不限于生成、推理、理解、分类、检索和预训练。通过在统一框架下呈现系统的分类结构,我们明确了这些方法的核心方面,以增强领域理解并指导未来研究。

IV-A. 理解与推理任务

 多模态推理任务,如基于知识的视觉问答(VQA)【27】【28】、视觉常识推理(VCR)、视觉问题生成(VQG)、视觉对话(VD)和多模态讽刺解释(MuSE)【85】,需要超出日常经验的知识【86】。这些任务通常涉及罕见的长尾知识领域,往往需要通过刻意学习或思考才能掌握,而知识图谱(KGs)则提供了一个关键的结构化知识库,用于支持这些广泛、专门化的知识需求。

 定义4:知识图谱感知的理解与推理。根据前面的定义1和定义2,一个知识图谱表示为 G = { E , R , T } G = \{E, R, T\} G={ E,R,T},其中 T = { T A , T R } T = \{T_A, T_R\} T={ TA,TR}。给定一个图像-问题对 ( x v , x l ) (x_v, x_l) (xv,xl),目标是利用背景知识图谱 G G G 作为基础支持,推导出答案 y y y

IV-A1 视觉问答

 1) 视觉问答(VQA):VQA【87】【88】是多模态学习中的核心任务,作为评估大多数多模态模型能力的基准【89–91】,因为其任务定义简洁且贴近日常情景。基于知识图谱的VQA(图5)大约在2015年出现【92】,与传统方法不同,通过整合外部知识库(KB)以进行更复杂的问题分析和更深层次的推理支持【27】。
在这里插入图片描述

图 5:基于知识图谱(KG)的视觉问答(VQA)(§ IV-A)和视觉指代表达(VRE)(§ IV-D)的示意图。在某种程度上,基于KG的VRE可以视为基于KG的VQA的扩展,加入了一个额外的步骤——对答案进行定位(grounding)。

在这里插入图片描述

图6:当前的知识图谱(KG)感知理解与推理研究流程,通常涉及四个关键阶段来融入知识。请注意,研究通常会采用其中一个或多个阶段。

方法:如图6所示,当前知识图谱感知的视觉问答(VQA)研究通常包括四个关键阶段,以整合知识:知识检索、知识表示、知识感知的模态交互和知识感知的答案确定。这些阶段是知识图谱感知的理解与推理任务工作流程的核心,可以在不同的研究中单独或组合采用,形成综合性方法。基于知识图谱的VQA过程可表达如下:
在这里插入图片描述

其中 Q Q Q

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值