文章汉化系列目录
知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5
文章目录
IV. 基于知识图谱驱动的多模态学习任务
本节探讨了知识图谱(KGs)在提升多模态学习任务中的作用。作为重要的符号知识载体,知识图谱为需要丰富背景知识的多种任务提供支持,包括但不限于生成、推理、理解、分类、检索和预训练。通过在统一框架下呈现系统的分类结构,我们明确了这些方法的核心方面,以增强领域理解并指导未来研究。
IV-B 分类任务
本节聚焦于利用多模态输入(尤其是文本和图像组合)的分类任务,特别是基于知识的图像分类。此外,还讨论了相关的多模态任务,如虚假新闻检测和电影类型分类,突显了该领域内任务的多样性及其广泛的应用范围。
定义5:知识图谱感知分类。考虑一个带有标签的训练样本集
D
t
r
=
{
(
x
,
y
)
∣
x
∈
X
,
y
∈
Y
}
D_{tr} = \{(x, y)|x \in X, y \in Y\}
Dtr={(x,y)∣x∈X,y∈Y},其中背景知识图谱定义为
G
=
{
E
,
R
,
T
}
G = \{E, R, T\}
G={E,R,T},分类器的目标是近似一个函数
f
:
x
→
y
f : x \rightarrow y
f:x→y,将输入
x
x
x映射到输出标签
y
y
y,并借助
G
G
G来实现。此函数应能够准确预测测试集
D
t
e
=
{
(
x
,
y
)
∣
x
∈
X
′
,
y
∈
Y
}
D_{te} = \{(x, y)|x \in X', y \in Y\}
Dte={(x,y)∣x∈X′,y∈Y}中样本的标签,其中
X
∩
X
′
=
∅
X \cap X' = \emptyset
X∩X′=∅。
IV-B1 图像分类
1) 图像分类:图像分类(IMGC)旨在识别图像中的对象,随着深度学习的进步,在ImageNet ILSVRC等挑战中甚至已超越人类表现【48】。传统的IMGC遵循封闭世界假设,要求在已知类别中进行广泛标注的图像用于训练和测试,即
Y
t
r
=
Y
t
e
=
Y
Y_{tr} = Y_{te} = Y
Ytr=Yte=Y。然而,由于不断为新出现的类别进行标注和重新训练模型不切实际,因此这种方法对于新类别来说并不可行。为此,零样本图像分类(ZS-IMGC)引起了越来越多的关注,支持在没有特定训练图像的情况下对新类别的图像进行分类,即
Y
t
r
∩
Y
t
e
=
∅
Y_{tr} \cap Y_{te} = \emptyset
Ytr∩Yte=∅。
图7:在Zero-Shot图像分类任务中比较先前使用的外部知识(左)和KG(右)[25]。
为处理这些未见类别,大多数现有的零样本图像分类(ZS-IMGC)方法采用了一种知识转移策略【17】【242】:在训练集中从已见类别转移标注图像、图像特征或模型参数至未见类别,并通过描述类别间语义关系的外部知识进行引导。例如,如图7左侧所示,“斑马”被描述为一种具有类似马的身体、类似老虎的条纹以及类似熊猫的黑白色的动物。即使模型未直接见过斑马的图像,它也可以通过结合这些已知动物的特征来推断“斑马”的外观。简而言之,ZS-IMGC依赖于已观测类别的数据和类别特定的语义知识,外部知识通常体现为不同于图像数据的模态。本节回顾基于知识图谱的ZS-IMGC研究,展示多模态学习在IMGC中的典型实践。
早期的ZS-IMGC研究如【243】【244】使用文本类别描述或名称来建模类别间关系。其他方法如【245】【246】则利用类别属性,为每个类别标注描述性特征,从而通过共享属性定义语义关系。然而,这些方法在捕捉完整语义方面有时存在局限性【247】。近年来,知识图谱在ZS-IMGC中越来越受重视,因为它们能够封装多样且明确的类别语义。例如,研究如【248】【249】从WordNet中整合了层次关系,而【250–252】则从ConceptNet等常识知识图谱中探索类别知识。由于兼容性强,知识图谱可以将文本描述和离散属性等多种知识形式统一为一个图结构【25】【247】【253】,如图7右侧所示。此外,本体还可用于定义复杂的类别关系(例如不相交性),显著提升分类性能【254】。Pahuja等人【26】将物种分类结构化为一个多模态知识图谱(MMKG),并将其视为链接预测任务,利用视觉线索和GPS坐标等多模态上下文来提高识别未见类别的效率。例如,“在非洲拍摄的一张猫科动物的照片更有可能是狮子”。在知识图谱感知的ZS-IMGC中,知识图谱被定义为
G
=
{
E
,
R
,
T
}
G = \{E, R, T\}
G={E,R,T},其中
Y
⊂
E
Y \subset E
Y⊂E。这种范式通过表示类别间的语义层次关系,有助于增强分类性能和可解释性。
根据利用知识图谱(KGs)指导特征从已见类别向未见类别转移的方式,现有的基于知识图谱驱动的ZS-IMGC方法可以分为三类:基于映射的方法、数据增强方法和基于传播的方法。
(i) 基于映射的方法:这类方法旨在开发映射函数,将图像输入和基于知识图谱的类别语义对齐到共享的向量空间中,通常通过相似性度量来识别测试图像在该空间中最接近的类别。例如,HierSE【255】使用线性投影将图像特征映射到基于类别和其上级类别词嵌入的类别嵌入空间,使用余弦相似度进行比较。Chen等人【254】使用基于OWL的本体对动物类别进行编码,采用OWL EL嵌入方法编码。Akata等人【256】【257】则将初始类别编码映射到图像特征空间,将类别表示为基于类别层次结构的多热向量。还有一些联合映射方法,例如DUET【258】,这是一个基于Transformer的端到端零样本学习方法,利用跨模态预训练语言模型(PLMs)进行细粒度的视觉特征重组和区分,结构化的知识图谱则序列化为输入。
总结而言,基于映射的方法通过线性或非线性网络进行特征转换,实施相对简单,但在仅用已见类别的图像训练时存在偏向已见类别的倾向。在广义零样本学习场景中,已见与未见类别共存时,这种偏向更为明显,成为这些方法的基本局限。
(ii) 数据增强方法:此类方法通过为未见类别生成图像或特征来解决零样本学习中的样本不足问题,将ZS-IMGC转变为有监督学习问题,并缓解偏差问题。主要使用生成模型如生成对抗网络(GANs)和变分自编码器(VAEs)。例如,OntoZSL【25】根据属性和物种的知识图谱生成图像特征,并结合类别嵌入与随机噪声向量为每个类别合成特征,由标注图像的真实特征进行监督,采用对抗判别器区分真实与生成的特征。DOZSL【253】进一步使用分解的KG嵌入模块来提高合成图像特征的质量。TGG【259】生成少样本图像,通过GAN模块生成图像级图结构。Zhang等人【260】开发了一个多模态知识图谱(MMKG),通过将类别的视觉表示与词嵌入结合,创建多模态类别节点和边,显式建模类别间的关联,从而提升从已见类别节点向未见类别节点的信息传递。
(iii) 基于传播的方法:这类方法利用知识图谱结构化的类别间关系实现知识转移,将已见与未见类别与知识图谱实体对齐,使用图神经网络(GNN)将特征从已见类别节点传播到未见类别节点。对于单标签图像,GNN模型通常训练输出类别特定的参数向量作为每个类别的分类器,通过在图上聚合邻近已见类别节点的特征来估计未见类别的分类器。一个显著的例子是Wang等人【248】的工作,后续研究采用相似的概念但在图传播优化上有所不同【249】【261】。一些方法通过使用多关系GNN【262】或将多关系知识图谱划分为共享参数的单关系图进行特征传播【253】【263】【264】,以处理知识图谱中多种关系类型的复杂性。对于多标签图像,模型为每个类别分配概率得分,GNN利用知识图谱隐含的相关性,将这些分数从已见类别节点传播到未见类别节点,例如Lee等人【265】的工作。
资源:在ZS-IMGC研究中,特别是知识图谱感知的ZS-IMGC领域,已有多个开放数据集和知识图谱资源被提出:
(i) ImageNet【74】:一个包含1400万张图像的数据库,覆盖2.1万个类别,每个类别均与WordNet【15】实体对齐。它利用了基于类别层次结构的知识图谱,其中图谱仅包含一种关系,即“subClassOf”。在【266】中,1K类别的子集作为已见类别,未见类别则由其在WordNet图谱中的距离决定。需要注意的是,虽然ImageNet广泛用于ZS-IMGC基准测试,但其知识图谱关系类型较为单一。
(ii) ImNet-A和ImNet-O:Geng等人【25】【247】从ImageNet中提取的子集。ImNet-A包含80个动物类别,而ImNet-O包含35个一般物体类别。每个子集均配有结合多种知识类型的知识图谱,包括类别属性、类别名称、来自ConceptNet的常识知识、WordNet的类别层次结构(分类法),以及“不相交”等逻辑关系。
(iii) AwA2【266】:一个粗粒度动物分类数据集,包含50个动物类别和37322张图像,附带85个专家标注的属性。其类别与WordNet实体对齐,形成基于分类法的知识图谱。Geng等人【247】为AwA2配备了类似于ImNet-A和ImNet-O的知识图谱,Chen等人【254】使用OWL2建模复杂的类别语义。
(iv) NUS-WIDE【267】:一个多标签图像分类数据集,每张图像包含多个对象。在【265】等研究中,NUS-WIDE配备了一个包含三种标签关系的知识图谱,包括来自WordNet的上下级关系,以及通过标签相似度(如WUP相似度)计算的正负相关性。
基准测试:ZS-IMGC中的单标签图像分类包含两种评估设置:
(i) 标准ZSL:仅关注未见类别样本,以宏准确率(Macro Accuracy)作为指标,计算为各类别准确率(正确预测与总样本比)的平均值。
(ii) 广义ZSL (GZSL):同时评估已见和未见类别样本,因此更具挑战性。在此设置下,分别测量已见类别的宏准确率(Accs)和未见类别的宏准确率(Accu)。关键性能指标为调和平均数 H = 2 × A c c s × A c c u A c c s + A c c u H = \frac{2 \times Accs \times Accu}{Accs + Accu} H=Accs+Accu2×Accs×Accu,以确保两者的平衡。
讨论4:整合多样化的类别语义通常能够提升ZS-IMGC的效果,即使是基础方法也不例外。例如,表V显示,一些基于映射的方法【243】【254】采用简单的线性映射函数,通过整合属性、层次结构和名称等不同类别语义,取得了优于仅依赖类别层次结构的GCNZ†的表现。显著的是,当为GCNZ†增加更多类别语义(如GCNZ‡所示)时,其效果得到了显著增强。
此外,基于知识图谱的ZS-IMGC方法通常在类别转导设置(transductive setting)下运行,即在训练时已知未见类别,这不同于传统的仅使用已见类别知识的归纳方法(inductive approach)。这些方法利用知识图谱通过语义链接在已见和未见类别之间建立桥梁。此外,尽管广义ZSL设置已被许多研究者广泛认可,但一些研究采用了自己的定义,特别是在测试时仅对未见类别的图像进行分类,但分类时将其置于已见和未见类别的组合池中。这种差异在未来研究中需加以谨慎考虑。
IV-B2 虚假新闻检测(FND)
2) 虚假新闻检测(FND):也称谣言检测,旨在应对社交媒体上误导性多媒体内容的传播,以确保信息的可信度。与标准文本分类不同,FND的挑战在于需识别跨不同主题的虚假信息。传统的深度学习方法在FND中多侧重于文本,往往忽视了视觉内容和背景知识的重要性。因此,为了实现精准的FND,全面整合文本、视觉和知识内容至关重要。
KMGCN【268】使用实体链接将社交媒体帖子中的实体映射到Probase【269】和YAGO等知识图谱中的概念。它构建了一个以帖子单词为节点的图,并将图像中的视觉词汇(由预训练对象检测器【270】检测出)纳入其中,通过点互信息(PMI)对边进行加权以强调词汇间的关联。然后使用图卷积网络(GCN)对语义交互进行建模,通过全局均值池化实现多媒体帖子的最终二分类。在此基础上,KMAGCN【271】通过后融合范式整合视觉模态,利用特征级注意力更精确地刻画视觉和文本内容之间的互动。作为一个双重一致性网络,KDCN【272】通过Freebase作为参考知识图谱识别跨模态和内容-知识之间的不一致性。它发现谣言帖子中的实体在知识图谱中较普通内容的连接更为分散,为区分谣言提供了显著标记。EmoKnow【273】在COVID-19虚假新闻检测中引入WiKiData5M【38】作为外部知识源。该模型使用预训练语言模型(PLMs)进行文本分析,提取情感特征并识别相关的链接实体,利用TransE【79】进行实体表示,通过基于MLP的分类器结合这些多模态输入。
讨论5:大型语言模型(LLMs)的进步正在将许多分类任务转变为侧重推理和指导性问答的任务,突显了选择知识源的重要性。此外,鉴于虚假新闻经常涉及政治内容,其时效性使得开展关于知识更新和终身学习的研究对FND尤为关键。
IV-B3 电影类型分类:
3) 电影类型分类:多模态电影类型分类(MMGC)模型通过整合视觉、文本和元数据信息来预测电影类型,将每种类型表示为二进制向量中的元素,以实现电影的多类型分类。传统方法【274】【275】主要依赖于从图像和文本中提取的特征。最近的一项研究IDKG【276】整合了一个基于特定领域的多模态知识图谱(MMKG),其创建来源于标题、类型、演员和导演等元数据字段。其动机在于识别元数据中的关系模式,如“诺兰倾向于执导科幻电影”或“艾玛不常出演喜剧”。该模型使用翻译模型将知识图谱嵌入与其他模态特征融合,并由注意力机制进行指导。
讨论6:特定领域知识图谱的成功在很大程度上依赖于元数据的质量和完整性,尤其是在处理大型电影数据集时,扩展性问题至关重要。此外,创建交互式和个性化的电影类型分类系统也具备潜力。通过整合用户反馈和偏好,系统可根据个体口味进行定制,提供个性化的类型建议。技术上可使用强化学习和用户建模来定制类型分类过程,从而进一步提升用户体验和满意度。
IV-C.内容生成任务
之前讨论的许多推理方法(包括用于VQA任务的方法)都基于生成性方法。本节聚焦于那些任务完成过程中严格需要内容生成的任务,突显出知识图谱(KGs)在增强生成过程中的关键作用。
定义6:知识图谱感知生成任务。给定视觉图像 ( x v ) (x_v) (xv)或文本描述 ( x l ) (x_l) (xl),目标是以跨模态的方式生成文本目标 y l y_l yl(如标题)、视觉目标 y v y_v yv(如图像)或图形目标(如场景图),利用背景知识图谱 G G G作为基础支持。
IV-C1 图像描述生成
1) 图像描述生成:图像描述生成(Image Captioning, IC)【277】是一个关键的多模态学习任务,旨在以自然语言描述图像。在IC中,知识图谱(KGs)可以提供必要的先验知识,包括常识性语义关联和对象之间的约束,以引导语义图的构建,从而生成具有意义的描述,即使某些元素在视觉上并未出现(见图8)。此外,由于训练数据中的每张图像通常只有少数真实标签描述,模型往往缺乏揭示隐含意图的线索。知识图谱可以显著弥合这一差距,为事实校验提供关键支持。
基于规则的方法【278-280】主要通过实体链接和符号规则将KG知识整合到描述生成模型中,通常还辅以概念间共现得分。Aditya等人【278】开创性地将KG应用于IC,通过检测的视觉概念从KG中识别相关事件,然后使用预定义规则构建场景描述图(SDG),并利用自然语言生成(NLG)工具生成描述。Lu等人【279】使用CNN-LSTM模型从输入图像生成模板描述,然后应用基于KG的集合推理算法,用来自标签的具体命名实体填充模板。Huang等人【280】则在词生成阶段输入从ConceptNet中检索的三元组,用于下一个词的预测,提升了语义知识语料库中识别出的潜在词的概率。
基于嵌入的方法【35】【281-285】通常采用GNN或RNN等网络高效编码检索到的知识为向量,随后将这些向量整合到描述生成过程中。Hou等人【281】【282】利用人类常识知识支持IC中的对象关系推理,避免了对预训练检测器的需求。使用Visual Genome作为外部KG,他们将图像中密集采样的区域映射为低维向量,然后在KG的指导下形成一个临时语义图,这一图增强了基于GNN的关系推理过程,并迭代改进KG自身。CNet-NIC【286】将ConceptNet条目与识别出的图像对象连接起来,以丰富描述并推断非显性视觉信息,从而提升对象识别模块输出的语义深度,通过知识术语和图像特征的嵌入初始化RNN进行IC生成。
Interpret-IC【283】根据人类可解释规则选择图像中的局部对象,确保描述仅反映人类感兴趣的对象。训练过程中,标准描述中未出现的实体会被屏蔽,以使模型更贴合人类偏好。Zhang等人【287】利用包含胸部X光片先验知识的异常检测KG支持放射报告生成。在此KG中,实体特征通过对胸片的CNN特征提取初始化,使用GCN的均值池化得到图形级特征,为生成放射报告提供支持。Zhao等人【288】采用一个多模态知识图谱(MMKG)将视觉对象与命名实体关联,用于IC,从Wikipedia和Google Images中获取外部多模态知识。此MMKG经过GAT【289】处理后,将最终层输出输入到Transformer解码器中,支持实体感知的描述生成。
Nikiforova等人【290】提出了一个来自Geograph项目的数据集11,包括照片位置的地理坐标。他们专注于百科知识,从DBpedia中提取事实,并使用检索器优先排序可能用于描述的事实。这些知识三元组与图像和地理上下文结合后,应用于编码-解码的IC管道。
IV-C2 视觉故事生成
2) 视觉故事生成:视觉故事生成(Visual Storytelling, VST)超越了传统的图像描述生成,通过将一系列图片转化为连贯的叙述,要求识别图片内外的上下文并克服叙事的单调性。知识图谱(KGs)在这里起到了至关重要的作用,增强了故事的多样性、合理性和连贯性。
KG-Story【292】通过将来自FrameNet【209】和Visual Genome等背景知识图谱中的概念术语与场景中的图像进行关联,经过预训练语言模型(PLM)调整,实现顺序图像的叙事生成。Yang等人【293】提出了一种视觉感知方向编码模式,将ConceptNet中的常识知识整合到每张图像的概念中。增强后的快照表示经过知识注意机制强化,并在基于GRU的框架中进行最终的VST生成。在此基础上,MCSM【294】应用剪枝规则和两个概念选择模块,以精炼常识知识事实,并通过集成视觉适配器的BART【295】生成每张图片的句子。进一步的,PR-VIST【296】将图像序列表示为故事图,以识别最佳故事路径,并开发一个判别模型为输出的故事质量评分,使叙述符合人类偏好。IRW【297】利用每张图片的关键概念来检测实体提及,从ConceptNet中检索候选事实三元组,形成子知识图谱。该子知识图谱与每张图像的场景和事件图一起,通过单独的GCNs整合,自适应地促进VST过程。KAGS【298】使用了一个知识丰富的注意力网络,并配备了群组语义模型,实现全球一致的VST指导。
讨论7:多模态大型语言模型(MLLMs)的兴起增强了预训练模型中嵌入的知识,往往降低了知识图谱在提供粗粒度常识知识用于IC和VST任务中的必要性。此进展突显了KGs在解决模型幻觉问题时提供更细粒度或特定常识知识的需求。此外,在VST任务中,保持图片和场景之间的连贯性至关重要,KGs在连接分散的场景并通过背景知识丰富场景过渡方面发挥了重要作用。一些方法通过数据驱动的KG增强进行了创新,如从训练语料中的故事集合中提取背景KG【296】,或通过从训练集中选择与查询图像相似的图像构建事件图,随后使用信息抽取工具为与图像关联的句子构建事件【297】。尽管这些策略具有开创性,但它们因对外部知识源的依赖不同,在确保模型比较的公平性方面引发了挑战,建议对这些数据驱动方法进行单独的评估。
IV-C3 条件文本生成图像
3) 条件文本生成图像:条件文本生成图像(Conditional Text-to-Image Generation,cIG)旨在将文本描述转化为视觉上真实的图像,其中知识图谱(KGs)可以提供数据集中原本缺失的详细先验知识和常识元素。LeicaGAN【299】通过整合文本-图像编码器以理解语义、纹理和色彩,以及文本掩码编码器以通过分割掩码塑造布局,建立了一个共享的语义空间,使文本嵌入能够传达视觉信息。在图像生成阶段,它将这些编码器的输出与添加的高斯噪声合并,以增强多样性。一个级联的注意力生成器通过对抗性学习生成详细且真实的图像,确保语义和视觉的连贯性。
许多后续工作【300-302】将训练集中的图像-标题对视为知识库(KB)条目,通过选择和精炼相关项来丰富标题,从而帮助特征提取并实现更准确的cIG。具体而言,KnHiGAN【303】和AttRiGAN【304】展示了一个知识增强的层次化GAN,利用KG丰富文本描述以获得详细的生成输入。该任务特定的KG由训练样本属性构建,并格式化为RDF三元组【25】【247】。对于3D条件生成图像,T2TD【305】包含一个文本-3D KG,将文本与3D形状和文本属性关联,并将这些元素用作先验知识。在3D生成过程中,它基于文本描述检索相关知识,并使用因果模块选择与文本相关的形状信息。
讨论8:虽然Inception得分【306】和R-precision【307】等指标通常用于评估生成图像的多样性及其与输入文本的语义一致性,但当前的生成图像评估方法仍缺乏在知识和常识层面上的关键评估【308】。弥合这一差距是未来研究的重要方向。
IV-C4 场景图生成
4) 场景图生成:由Johnson等人【76】提出的场景图(Scene Graphs,SGs)构成了场景理解的关键数据结构,通过对场景中的对象实例进行分类并描绘它们的相互关系来描述场景。这些实例涵盖了人物、地点和物体,并通过形状、颜色和姿势等属性进行描述【309】。实例之间的关系通常基于动作或空间,并用三元组(subject, predicate, object)来表示,类似于KG中的三元组(h, r, t)和(e, a, v),通常表示为(s, p, o)。场景图生成(SGG)作为一种中间任务,与具有特定目标的多模态任务不同,提供了更强的理解和推理能力,支持下游任务【308】【310】【311】。
在SGG训练数据中掌握所有关系具有挑战性,但却至关重要。利用先验知识显著有助于从有限数据中有效学习关系表示,从而提升SGG的检测、识别和整体精确度。一种有效的方法是使用语言先验。通过利用语义词嵌入,这些先验调整了关系预测的概率,从而增强了视觉关系识别。例如,即使训练数据中人物与大象互动的实例很少,语言先验也可以通过学习更常见的例子(如“人骑马”)来推断出类似的关系(如“人骑象”)【309】。这也有助于缓解视觉关系中的长尾效应【312】。
另一种方法是统计先验,利用视觉场景中固有的结构规律,如【313】所强调的。这些先验利用典型的对象关系统计相关性,例如“人穿鞋”或“山靠近水”。一些工作将KG表示学习技术应用于SGG场景。例如,RLSV【314】使用现有的SG和图像来预测实体之间的新关系,目标是SG补全,并在结构视觉嵌入模型中将KG嵌入方法与SG特征相结合。Yu等人【315】通过从训练集SG三元组构建KG来改进SGG中的零样本性能,区分现有(非零样本)和缺失(零样本)边缘。他们训练KG嵌入模型来完成图的补全,使这些缺失的边缘可以像现有的边一样被集成。GLAT【316】将感知和常识分为两个模型,在标注的SG上进行训练,使用类似BERT的掩码方法(类似于KG的预训练【317】)进行元素预测。这种方法添加到任何SGG模型中时,可以利用感知和常识的协同效应来纠正SG中的错误。
一些场景图生成(SGG)研究【291】【318】-【322】也使用知识图谱(KGs)进行三元组预测,以生成丰富且富有表现力的场景图。具体而言,KERN【318】利用结构化KGs来捕捉对象对和关系之间的统计关联,通过为关系预测提供上下文来增强SGG,并通过稳定预测来解决数据分布不平衡的问题。Gu等人【319】利用一个基于知识的模块来识别相关的ConceptNet实体并检索常识性事实,每个事实都分配了一个权重,指示其在现实世界中的普遍性,以筛选候选三元组。然后,使用动态记忆网络(Dynamic Memory Network,DMN)【180】对这些事实进行多跳推理,从而推断出最可能的场景图三元组。GB-Net【320】将场景图视为基于图像的常识性KGs版本,将关注点从传统的实体和谓词分类转向了链接这两种图类型。GB-Net通过图神经网络逐步传播并细化场景图和常识图之间的信息,从而有效地桥接了场景知识与常识知识。Khan等人【291】通过CSKG【207】这种丰富的常识性KGs资源丰富场景图,利用图嵌入评估对象节点的相似性,增强图的精度和丰富性,如图8所示。这种方法为SGG带来了关于对象空间接近性和潜在交互的额外信息,提升了高层次的推理能力,并减少了一些在SGG过程中可能出现的遗漏或错误预测。显式本体调整框架【321】使用来自ConceptNet和Wikidata的知识先验来缓解谓词偏差,通过将来自KG的边矩阵集成到图神经网络(GNN)模型中来优化关系检测。Tian等人【323】在SGG网络中添加了一个分支,用于独立的标签置信度估计,该分支评估视觉识别的难度。这一分支平衡了在不同场景中常识知识的需求,尤其是在需要补充知识的关系(如“投掷”)和较简单的空间关系(如“坐在上面”)之间。
讨论9:在SGG领域,KGs在缓解训练集中关系偏差和长尾现象方面起到了关键的精细化作用。然而,现有的SGG方法在复杂场景中仍面临挑战,特别是当对象之间的空间距离较大以至于可能忽略潜在交互时。通过引入大尺度图像以识别远距离对象之间的关系,可提升场景图的完整性【277】。此外,将SGG扩展至识别人类交互,不仅限于物体关系,还包括社会动态,将丰富场景理解并拓宽其实用性,从而有助于多模态知识图谱(MMKG)的发展。此外,在训练大型语言模型(LLMs)时利用场景图的结构化特征是一种很有前景的策略,通过利用SGs、KGs和语言先验的组合优势来增强多模态学习。
IV-D.检索任务
定义 7:知识图谱驱动的检索任务 旨在通过文本描述( x l x_l xl)来排序相似的视觉图像( x v x_v xv),或反之进行操作,包括对图像中所有相关图像或区域提议的排序和检索。借助背景知识图谱 G G G,该方法超越了单纯基于外观的检索,通过引入非视觉属性,实现更接近人类水平的语义理解,特别适用于缺乏明确目标的场景。
IV-D1 跨模态检索
1) 跨模态检索: 跨模态检索(Cross-Modal Retrieval, CMR)专注于从不同模态(如图像、文本、音频或视频)中获取与另一模态查询相对应的数据。特别是,本部分探讨图文检索(Image-Text Retrieval),目标是识别视觉与文本模态之间在语义上相似的实例。
图文匹配(ITM)与图文检索(ITR)
ITM和ITR在跨模态任务中密切相关,但在应用上有所不同:ITM主要评估图像和文本之间的相关性,多用于图像与字幕的匹配【308】【324】,而ITR侧重于在更大数据集中寻找文本或视觉查询的相关匹配项,广泛应用于视觉搜索引擎、数字资产管理和自动内容生成【325】。两者均采用类似的技术、评估指标和数据集,如Flickr30k【326】和MSCOCO【327】,这些数据集包含了大量带有字幕的标注图像。在跨模态预训练中,ITM作为基础任务,增强了模型在图文语义相关性上的能力,从而提高了ITR的效果【91】【328】【329】。此类预训练从粗粒度匹配(评估整体语义相关性)到细粒度匹配(对齐图像特定区域和文本),这种精细化提升了预训练模型的理解和检索能力,使之更好地适应ITR任务的特定需求。
早期的CMR研究常忽视图像中长尾和遮挡的语义概念【325】【330】。近年的进展【331】—【335】通过利用如Visual Genome场景图【49】或图像字幕语料库中的高频共现概念对,创建场景概念图(SCG),更好地捕捉细粒度细节。此类SCG通常通过语言解析器等启发式或基于规则的工具生成【336】。例如,Shi等人【331】通过SCG的共现关系,逐步识别并细化概念标签,EKDM【335】则使用迭代概念过滤模块,通过静态全局表示动态地融合高分概念。CVSE【332】【333】利用GNN传播SCG中的语义关联,通过加权嵌入加和丰富概念表示。CSRC【334】采用多头自注意机制,侧重于更深层次的概念强调,而MACK【337】在训练中不需要配对数据。此外,尽管这些工作中的背景知识图谱(KG)通常来源于大规模多模态数据集,但仅依赖单纯词汇共现来定义实体相似性会有误导,如因频繁共现而错误关联“人”和“狗”。为避免此类错误,WordNet的名词层次结构帮助区分此类实体,同时多模态知识图谱(MMKGs)通过捕捉跨模态共现关系(如时间、因果和逻辑关系)提升了语义理解,如在图文对中关联“水龙头”和“洗涤”或“刀”和“切割”。
基于此视角,如图9所示,MKVSE【338】展示了基于MMKG的检索方法,提升图文间语义关联,尤其是对于间接文本描述的图像。该方法使用WordNet路径相似性(通过NLTK【126】计算)和共现关联对MMKG中的模态间关系评分,通过GNN嵌入增强ITR性能。此外,Yang等人【335】关注视觉概念建模中的常见局限性,利用几何图【339】的空间信息以区分图像区域的空间关系,并通过位置CNN模型优化视觉语义表示。EGE-CMP【340】为一种基于实体图增强的跨模态预训练框架,从字幕中提取实体知识而非人工标注,通过注入真实语义信息改进实例级特征表示,实现了文本与图像的跨模态对齐。
讨论 10 :当前的视觉语言模型(VLMs)在实现跨模态的细粒度语义匹配方面面临挑战。
Wang等人[341]通过对比学习的方法,将视觉基因(Visual Genome)中的实体对齐应用于图像-文本检索(ITR)任务,利用实体掩码技术来增强跨模态对实体的敏感度。我们注意到,在VLM训练中,采用知识引导的策略而非单纯依赖共现信息,可能会显著改善稀有对象的细粒度语义对齐,从而提升语义基础【258】,并实现更广泛的应用。然而,只有少量研究【338】考虑了像WordNet语义结构这样的外部知识的角色。
此外,正如在第IV-A1节所讨论的,各种类型的知识图谱(KGs),如琐事知识、常识、科学知识和情境知识,在推理过程中提供了独特且互补的见解。然而,当前主要关注的共现信息只捕捉了部分常识知识。展望未来,利用来自大型知识库的长尾知识,有可能显著增强模型在不同领域和现实场景下的泛化能力。
IV-D2 视觉指代表达与视觉定位
2)视觉指代表达与视觉定位: 本节重点探讨在视觉指代表达(Visual Referring Expressions,简称VRE)和视觉定位(Visual Grounding,简称VG)中的知识图谱增强方法。尽管跨模态检索(CMR)通常涉及在不同文本和视觉上下文中匹配信息,VRE和VG更注重在特定文本-视觉对中实现细粒度特征的对齐。从某种角度来看,这些任务类似于在传统知识图谱支持的视觉问答(KG-based VQA)中增加了一个定位答案的步骤,如图5所示。
视觉指代表达(VRE) vs. 视觉定位(VG): VRE和VG通过结合语言和视觉信息,虽然目标不同,但具有相似的特性[342]。VRE的任务是识别并定位与给定文本表达相对应的特定图像区域,通常包含对某个对象的详细描述。而VG则关注定位与句子中的多个名词短语关联的不同对象区域,旨在实现视觉与语言之间的细粒度对齐。尽管二者在任务焦点上存在差异,但都需要深刻的语义语言解析,并处理自然语言和视觉感知中固有的歧义性,同时依赖大量标注数据集。在研究中,VRE和VG的界限常常模糊,部分方法[343]–[345]融合了二者的核心特点:VRE的精准对象定位和VG的广泛上下文分析。
知识图谱增强的VRE和VG方法:
- KAC Net [346]:利用来自预训练的固定类别检测器的知识,有助于在VG任务中选择相关提议并保证视觉一致性,从而过滤掉不相关的提议。
- Shi等人[347]:针对零样本VRE(即测试集中查询对象类别的视觉示例在训练集中未出现)进行研究,采用动态构建多模态知识图谱(MMKGs),结合来自WordNet和ConceptNet的常识知识以及来自Visual Genome的情境知识。查询实体、检测到的对象和预定义关系被整合到这些MMKG中,通过图卷积网络(GCN)对节点进行表示,并定义八种空间关系来帮助定位名词短语。
- KB-Ref数据集[348]:重点在于常识知识,其构建过程受FVQA数据集[27]的启发,通过创建常识知识图谱,志愿者基于知识图谱中的事实为查询对象构造指代表达,刻意避免使用特定对象名称。
- ECIFA[348]:在KB-Ref数据集的基础上,引入多跳事实注意力模块和匹配模块,利用表达-对象评分实现精准的定位。
- CK-Transformer[349]:以UNITER[184]为主干,从知识图谱中为给定的表达和视觉区域候选项选择前K个检索到的事实,将这些事实编码为多模态特征以计算每个候选项的匹配得分。
- Bu等人[350]:观察到基于知识的指代表达通常由两个部分组成:视觉片段(如图5中的“在沙发上”),可以直接通过视觉内容(颜色、形状)来解释,以及知识片段(如“用于睡觉”),需要额外的非视觉信息(功能和非视觉属性)。为缓解相似性偏差,他们引入了SLCO网络,利用知识片段进行类别检索,并利用视觉片段进行对象定位。
SK-VG 数据集 [351] 专为场景知识引导的视觉定位(VG)设计,使用来自 VCR 数据集 [220] 的电影场景图像。其目的是通过实施详细的两阶段注释过程,提升超越基本图像内容的推理能力。在第一阶段,为每张图像生成故事描述,提供叙事上下文。在第二阶段,这些故事被用于创建与图像中的特定对象相关的指称表达,并附有物体的边界框注释。这些注释注重确保与场景上下文的知识关联,确保唯一性以便准确识别物体,并在词汇和物体表现上实现多样化。Chen 等人提出了两种不同的算法进行基准测试:
- 单阶段方法:该方法在查询交互之前将知识嵌入到图像特征中,通过直接整合基于知识的提示来简化 VG 过程。
- 双阶段方法:该方法分别从图像和文本中提取特征,然后利用结构化的语言数据计算图像区域和文本实体之间的相似性。此两步过程允许更结构化和精细的图像区域与文本查询匹配。
讨论 11: 一个良好的视觉指称表达(VRE)和视觉定位(VG)系统可以显著提升多个下游任务,例如视觉问答(VQA)、跨模态检索(CMR)和图像分类(IMGC)。Chen 等人 [258] 提出了一种跨模态语义定位网络,专门为零样本图像分类(ZS-IMGC)设计,旨在通过自监督方法从图像中解构语义属性。这种技术有效地将预训练语言模型(PLM)的知识桥接到视觉模型,而不需要区域-属性对齐的监督。
通过使用 AWA2-KG [247] 进行精确标注,该网络能够将物种与其特定属性联系起来(例如,将“斑马”与“条纹”相连),并使用知识图谱序列化将结构化知识整合到跨模态定位中。此外,该网络采用属性级对比学习来应对属性不平衡和共现问题。这种方法增强了跨已知和未知类别的细粒度视觉特征的区分能力,展示了知识图谱在 VG 任务中的潜力。知识图谱作为知识的自然组织者,使得 VG 原理能够在没有专门注释的情况下有效地转移到相关任务中。
IV-E. 知识图谱感知的多模态预训练
在本节中,我们主要关注与基于 Transformer 模型相关的预训练定义,以契合当前 AI 社区的主流讨论。其他范式(例如 Poincaré 嵌入预训练 [352])不在此次讨论范围内。
IV-E1 结构化知识感知的预训练
1) 结构化知识感知的预训练
将结构化知识整合到多模态内容理解中的研究逐渐兴起,其灵感源于自然语言处理(NLP)领域的进展。KM-BART [353] 适应了 BART [295] 模型以应用于多模态任务,结合了预训练的视觉特征提取器。该模型利用 COMET [354] 增强图像-字幕数据集的常识上下文,专注于知识驱动的常识生成。这些丰富的数据集与下一个词预测目标结合,使得 KM-BART 能够从图像-文本对中推测事件和角色意图。
ERNIE-ViL [311] 在视觉语言模型(VLM)中整合了场景图(SG)知识,通过在多模态预训练阶段添加 SG 完成和预测任务(涵盖物体、属性和关系),增强了视觉场景理解能力。ROSITA [355] 通过在输入图像和文本之间应用一个统一的 SG 来加强视觉和语言模态之间的语义对齐。现有的 VLMs 往往在要求识别角色或动作逆转的图像-文本匹配任务中表现欠佳,例如在“宇航员骑马”与“马骑宇航员”这样的场景中(参见 § IV-D1)。为了解决这个问题,Structure-CLIP [308] 利用 SG 生成语义负例,以改进结构化多模态表示学习。
IV-E2 知识图谱感知的预训练
2) 知识图谱感知的预训练
Med-VLP [356] 使用来自 UMLS KG [357] 的结构化医学知识实体作为媒介,对齐图像和文本特征【358】,并采用整体实体掩码策略【359】取代子词掩码。该模型关注于多模态间的关键医学信息,使得医学 VLM 能够在下游任务中获得领域特定的知识,实现语义对齐和知识感知的表示。DANCE [221] 是一个为 VLMs 创建的数据集,将常识知识图谱中的三元组转换为自然语言谜语,每条谜语都与相应的图像配对。该数据集通过嵌入实体间的知识关系来增强模型学习,将 KG 中的条目(h, r, t)与包含相关实体的图像联系起来,其中图像中的实体被称为“此物品”。
KGTransformer [360] 预训练于包括 WN18RR [361]、FB15k-237 [362] 和 CoDEx [363] 在内的知识图谱,预训练目标包括掩码关系/实体预测和实体对预测。该模型可以用于零样本图像分类(ZS-IMGC),通过匹配输入图像和目标类别的分数进行任务框架。在细调时,KGTransformer 使用 AwA-KG [247],并采用预训练的 ResNet 作为视觉编码器,进一步通过可训练的矩阵转换图像表示。
讨论 12: 当前的知识图谱增强的 VLMs 主要利用三元组上下文来加强多模态数据,少数例如 KGTransformer [360],将知识图谱的结构信息融入到预训练中。然而,其应用仅限于零样本图像分类,在预训练时仍采用单一模态的方法。未来研究可以集中在以下四个方面:首先,扩大知识图谱的规模,利用其丰富的知识和结构特征,重新审视多模态预训练数据中的长尾现象,并扩展知识范围以涵盖世界知识。其次,集成多模态知识图谱(MMKGs),将在 §V-E 中进一步讨论。第三,探索适用于(MM)KG 的独特预训练范式,以充分发挥结构化知识在多模态预训练中的价值。第四,扩展至更多的下游任务,以符合 AGI 的最新进展,利用 MLLMs 如 LLaVA [364]。