知识图谱与多模态学习的关系研究综述P2(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对）-优快云博客

文章汉化系列目录

知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5

文章目录

文章汉化系列目录
IV. 基于知识图谱驱动的多模态学习任务
- IV-A. 理解与推理任务

IV. 基于知识图谱驱动的多模态学习任务

本节探讨了知识图谱（KGs）在提升多模态学习任务中的作用。作为重要的符号知识载体，知识图谱为需要丰富背景知识的多种任务提供支持，包括但不限于生成、推理、理解、分类、检索和预训练。通过在统一框架下呈现系统的分类结构，我们明确了这些方法的核心方面，以增强领域理解并指导未来研究。

IV-A. 理解与推理任务

多模态推理任务，如基于知识的视觉问答（VQA）【27】【28】、视觉常识推理（VCR）、视觉问题生成（VQG）、视觉对话（VD）和多模态讽刺解释（MuSE）【85】，需要超出日常经验的知识【86】。这些任务通常涉及罕见的长尾知识领域，往往需要通过刻意学习或思考才能掌握，而知识图谱（KGs）则提供了一个关键的结构化知识库，用于支持这些广泛、专门化的知识需求。

定义4：知识图谱感知的理解与推理。根据前面的定义1和定义2，一个知识图谱表示为 $G = \{E, R, T\}$ ，其中 $T = \{T_A, T_R\}$ 。给定一个图像-问题对 $x_v, x_l)$ ，目标是利用背景知识图谱 $G$ 作为基础支持，推导出答案 $y$ 。

IV-A1 视觉问答

1) 视觉问答（VQA）：VQA【87】【88】是多模态学习中的核心任务，作为评估大多数多模态模型能力的基准【89–91】，因为其任务定义简洁且贴近日常情景。基于知识图谱的VQA（图5）大约在2015年出现【92】，与传统方法不同，通过整合外部知识库（KB）以进行更复杂的问题分析和更深层次的推理支持【27】。
在这里插入图片描述

图 5：基于知识图谱（KG）的视觉问答（VQA）（§ IV-A）和视觉指代表达（VRE）（§ IV-D）的示意图。在某种程度上，基于KG的VRE可以视为基于KG的VQA的扩展，加入了一个额外的步骤——对答案进行定位（grounding）。

在这里插入图片描述

图6：当前的知识图谱（KG）感知理解与推理研究流程，通常涉及四个关键阶段来融入知识。请注意，研究通常会采用其中一个或多个阶段。

方法：如图6所示，当前知识图谱感知的视觉问答（VQA）研究通常包括四个关键阶段，以整合知识：知识检索、知识表示、知识感知的模态交互和知识感知的答案确定。这些阶段是知识图谱感知的理解与推理任务工作流程的核心，可以在不同的研究中单独或组合采用，形成综合性方法。基于知识图谱的VQA过程可表达如下：
在这里插入图片描述

其中 $Q$ 、 $I$ 、 $A$ 分别表示文本问题（ $x_l$ ）、图像（ $x_v$ ）和答案（ $y$ ）。 $G$ 和 $G_{ret}$ 分别表示整体背景知识图谱和检索到的相关子知识图谱，而 $\Phi$ 表示用于知识检索步骤的模型参数。鉴于隐式知识可以编码在 $\Theta$ 中，通常通过在大规模数据集上进行自监督任务的预训练来实现，检索器的使用变得可选，但在完成任务时仍具优势。

知识检索

知识检索对于将知识整合到多模态推理任务中至关重要，其重点在于从各种外部来源提取相关知识，包括知识图谱（KGs）以及非知识图谱结构的数据源（如文档集合，例：维基百科【37】）。这些技术从早期的基于匹配和密集嵌入相似性的方法，逐步发展到可学习的检索技术和预训练语言模型（PLM）生成技术，从而扩大了知识整合的范围和效率。
(i) 基于匹配的检索 通常使用RDF查询、实体链接和BM25等方法来识别图像和问题中的关键概念，将这些概念与诸如ConceptNet【16】之类的大规模知识库中的相关数据连接。图像提取过程可能包括识别空间位置【29】【30】【93–96】，视觉对象的尺寸和名称【27】【29】【94】【95】【97–117】，以及场景名称、对象部分和人类活动等高级属性，通常使用预训练的分类器或API【27】【30】【92】【94】【97】【98】【100】【103】【108】【110】【112】【114】【115】【118】【119】。此外，还可以生成图像标题和OCR文本字符串来补充信息【29】【32】【92】【94】【96】【110】【114】【115】【117】【118】【120–125】。

这些问题和标题可以通过NLP工具（如NLTK【126】、AllenNLP句法分析器【127】、Stanza【128】、NLP依存解析器【129】、命名实体识别器【130】、LLMs【117】）进行句法分析【99】【102】【111】【113】【123】【131】【132】，还可使用正则表达式（regex）【97】、语义图解析模型【29】【94】【110】【119】【133】、SpanSelector【134】或用于查询模板选择的预训练分类器【27】【98】【100】等技术。在这一阶段，不在问题或标题中的不重要视觉对象可能会被过滤掉【104】【127】。
在从问题（Q）和图像（I）中提取初始概念后，建立两个关键映射：第一个映射将Q中解析出的对象与I中的视觉对应物关联，第二个映射将这些概念与知识库（KBs）中的相关条目关联。实现方法包括贪婪最长字符串匹配【97】【120】【135】、模板匹配【27】以及多模态实体链接方法【105】【114】【123】【134】【136】。人脸识别算法【93】【106】【137】【138】和ViLBERT多任务模型【139】等工具有效地实现了对象链接。

随后，通过这些识别出的概念节点获取一阶子知识图谱（sub-KG）中的三元组（在某些情境下如角色知识图谱为三跳路径【93】），或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。此过程需要为当前Q-I对构建特定的临时子知识图谱【99】【102】【120】。除了为每个Q-I样本构建局部子知识图谱外，KG-Aug【102】还构建了一个全局子知识图谱，将Q、I和候选答案链接到一个统一的知识语义空间。此外，KAN【104】提出了一个权重系统，以指示对应知识的可靠性。Heo等人【137】从知识图谱中构建了一个超图，以三元组作为基本单元，以保留知识图谱中固有的高级语义。

RDF查询生成，如SPARQL，通常涉及使用解析后的问题数据填充预定义模板，适合于具有一致问题模式的数据集【97】。查询通常包括“ASK”和“SELECT”类型，“ASK”用于检查查询模式的解决方案，“SELECT”返回所有匹配的变量【97】。基于词项的检索工具（如TF-IDF和BM25）也是不错的选择，它们的评分反映了查询与事实三元组之间的直接相关性。Luo等人【140】利用生成的图像标题，并将其与Q连接起来作为BM25文档检索的查询。LaKo【32】提出了基于词干的BM25方法，将词干作为最小语义单元，以最大化从有限的VQA和知识图谱资源中提取知识。EnFoRe【123】使用实体增强查询通过BM25回溯段落，以这些段落与答案的相关性来衡量实体对查询的重要性。

(ii) 修剪：修剪阶段用于优化从初始检索得到的粗粒度子知识图谱（sub-KG）。此过程包括对候选事实重新排序，并可能基于相应视觉对象的大小为节点分配权重【99】。此外，确保每个知识三元组包含Q或自动生成标题中的关键元素【120】【123】，或与Q中暗示的关系类型对齐【29】【94】【100】【103】【110】【116】。还可以使用可学习的评分函数来评估事实表示与Q-I表示之间的兼容性【98】【110】【113】。

此外，全球知识图谱级别的修剪也被应用。例如，KRISP【30】从VQA数据集中收集所有符号实体，包括问题、答案和视觉系统识别的视觉概念，仅将这些概念相关的三元组纳入模型训练。LaKo【32】通过为VQA领域创建特定的词干语料库精简知识图谱，确保所有KG三元组至少包含该语料库中的一个词干。KAT【122】从Wikidata【81】提取包含常见现实世界对象的子集，而RR-VEL【114】仅保留KG中包含候选答案和在训练集图像中视觉检测到的实体的三元组。

(iii) 密集检索：密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配【29】【94】【100】【101】【107】【114】【125】【133】【142–144】，简化了检索过程，避免了复杂规则。有时，密集检索也可以作为知识图谱修剪的机制，有选择地排除可能不相关的信息。检索效率通常通过使用开源索引引擎（如FAISS【145】）来提升，便于组织和索引大规模的密集嵌入。
检索结构通常为对称或孪生结构，以支持共享嵌入空间，而跨模态检索场景（如基于CLIP的检索）则采用非对称设计。DMMGR【107】根据三元组中每个词与问题中的名词和图像中检测到的对象之间的平均余弦相似度来对三元组进行排序，排除平均相似度为零的组合。RR-VEL【114】通过评估Q与各知识三元组关键实体的相似性，使用组合相似性分数对候选三元组进行排序。KAT【122】利用CLIP模型对图像的局部区域和知识条目进行编码以进行检索。MAVEx【133】为每个Q-A对创建概念池，选择包含其他VQA模型识别出的潜在答案的事实。这些事实使用预训练的BERT模型进行重新排序。其后续研究EnFoRe【123】也优先考虑Q-I对中的关键实体，通过聚焦于回答问题所需的关键实体来增强知识检索过程。HKEML【146】应用2D卷积操作【147】来对齐知识查询中的头实体和关系模式与Q，从而有效挖掘知识图谱中与Q-A对相关的隐含连接。

(iv) 搜索引擎：在基于知识图谱的VQA中，搜索引擎是一种非典型但有用的方法，适用于需要开放知识的场景。Marino等人【28】为每个Q-I对收集维基百科文章，并基于关键词频率选择与查询最匹配的句子，他们的ArticleNet预测了正确答案在这些文章中的存在和定位。Jain等人【134】利用谷歌搜索引擎为机器阅读理解（MRC）模块检索出基于重新构建的Q的前10个相关片段。MAVEx【133】通过谷歌API丰富知识检索，获取类别标签、OCR识别和标志信息，从包含候选答案的维基百科文章中收集句子。此外，它还使用谷歌图像搜索结合候选Q-A对来提供额外的视觉信息。Luo等人【140】发现片段级知识优于句子级知识，为每个Q-A查询选择了10个片段。

(v) 可学习检索器：可学习检索器指的是一种可训练的检索模型，用于增强知识图谱（KG）驱动的VQA设置中的适应性和兼容性【31】【113】【118】【136】【140】【148】。与密集检索不同，可学习检索器能够针对特定上下文进行调整，提供具有偏向性的召回结果，强调视觉、文本和知识元素之间的特定交互。这项技术需要更严格的训练过程，可能需要带标签的数据进行直接训练，或要求模型具备自动生成相关标签的能力。例如，Chen等人【31】和Li等人【149】分别将Q-I对的联合嵌入与不同特征空间中的关系等目标对齐。这与之前在子知识图谱修剪操作【29】【94】【100】【103】中进行关系类型预测的过程类似。

此外，VLC-BERT【113】为每个Q分配推理事实的相似性得分，基于其与人工标注答案的重叠度，这些得分作为训练检索器的弱信号，指示每个事实与Q的相关性。Luo等人【140】使用DPR【141】作为神经检索器，利用两个BERT模型分别对查询和上下文进行编码，并在视觉领域中引入两种变体：基于LXMERT【150】的Image-DPR和适应视觉内容的Caption-DPR。LaKo【32】探索了一种可微分的知识图谱检索器，利用预测输出和输入事实之间的交叉注意力得分进行迭代阅读器-检索器训练。

RAVQA【118】定义检索内容为“负样本”，如果它对答案生成无帮助，其他样本作为正样本用于训练检索器，并利用检索概率和阅读器答案预测的联合概率确定最终结果。UnifER【151】仅使用Q-I输入计算阅读器损失，并将其与包含检索知识时的损失进行比较，将差值定义为损失间隙。负值表示知识不利，影响问题回答。通过损失间隙这一指标，模型优先学习有益的知识，从而迭代训练检索器和阅读器以实现共进化。为应对可学习检索器收敛缓慢和性能欠佳的问题，DEDR【152】采用双重多模态编码器架构，对Q-I查询和知识内容共享参数，均从相同的共享嵌入空间出发，并进一步结合多模态和仅文本的检索器，使用集成方法合并其结果。

REVEAL【154】整合了WikiData知识库【81】、Wikipedia-Image-Text（WIT）【155】和VQA2.0数据集【87】三种数据源，采用门控机制优化知识源选择，使用Perceiver架构【156】对知识项进行编码和压缩，实现级联多模态检索器和联合推理的端到端架构。冷启动问题在不对称或随机初始化的检索器中常出现，导致检索到不相关项，提供不足的反馈以支持迭代训练。为此，REVEAL【154】使用大型图像-标题数据集【155】创建伪真实知识的初始检索数据集，用于预训练。REVEAL将段落与查询图像配对为伪真实知识，并随机截断标题以预测缺失内容。LaKo【32】在第一阶段采用基于BM25的检索器进行初始知识检索，便于将预训练知识传递给可微分检索器，以减轻冷启动问题。
(vi) PLM生成：最近的研究表明，预训练语言模型（PLMs）具备获取事实知识的能力，在适当提示下可以充当知识库【157】。例如，KAT【122】和TwO【125】利用GPT-3来检索隐含的文本知识及其支持证据；VLC-BERT【113】使用常识知识图谱训练的COMET【158】生成上下文扩展，而非直接从知识库检索知识；PROOFREAD【124】借助ChatGPT为每个Q-I对生成相关的Q和知识条目，存储在示例库中以供重复演示，同时确保案例多样性。Wang等人【159】利用ChatGPT分解Q，缓解图像标题缺乏详细图像特征的问题；MMReasoner【115】借助大型语言模型（LLMs）从多维视觉描述中生成推理依据，整合常识知识、外部信息和支持性事实。这些推理依据连同I和Q一起，由专门微调的视觉语言模型（VLM）处理，以适应此类丰富输入。

此外，许多研究直接或隐式地利用PLMs中嵌入的知识来进行知识感知的VQA推理，通常跳过单独的知识检索步骤【108】【121】【160–162】。例如，CodeVQA【162】包含一个知识查询模块，利用PLM基于世界知识回答问题，突显了PLM在推理过程中的核心作用。

知识表示

知识表示涉及为符号知识图谱（KGs）选择适当的格式，以便与多模态模型集成。这一决策对于在多模态推理任务中有效地注入知识至关重要。
(i) 直接文本到嵌入映射：部分研究将知识图谱中的实体和关系视为单词，使用如Glove【163】之类的嵌入方法将它们转换为连续向量。这种转换使知识组件（如三元组）能够进一步通过循环神经网络（RNN）【99】、(V)PLMs【114】【154】【164】或均值池化【29–31】【94】【98】【100】【107】【110】【133】压缩成固定大小的向量。像Word2Vec中的停用词移除等技术可以进一步优化知识表示，减少均值池化中无关词语带来的噪声【32】【100】【144】。一些方法通过将关系和对象实体串联将事实集合转换为自然语言句子【101】【104】【114】【154】，然后通过PLMs直接编码为固定长度向量。
(ii) 知识图谱嵌入（KGE）：KGE提供了一种将事实嵌入抽象空间并揭示三元组间语义关系的有效方法。这项技术在生成初始【103】【105】【111】【120】事实嵌入和收集多模态知识【109】时非常有用。在自监督训练中，来自邻近实体的信号被嵌入到每个中心实体的独特表示中。这一过程使得在训练阶段便可轻松识别和集成关键实体，从而有效地模拟特定子知识图谱的检索，而无需直接检索。Cao等人【132】在整个知识图谱上训练RotatE模型以获取实体和关系特征，并修改引导注意力模块将这些知识嵌入与图像（I）和问题（Q）特征融合。Chen等人【31】评估了多种嵌入方式，包括基于TransE的知识图谱嵌入、ConceptNet的BERT节点表示【165】【166】和GloVe嵌入，发现Word2Vec在较小数据集的答案映射中表现优异。RVL【135】利用PyTorchBigGraph方法【167】对Wikidata知识图谱进行嵌入，而KVQAmeta【168】使用Wikipedia2Vec表示维基百科中的实体，突显了KGE在不同知识来源表示中的多样性。
(iii) 纯上下文：在许多情况下，知识图谱（KG）三元组保持其原始文本格式，直接用于多模态推理。这包括使用子知识图谱进行基于RDF查询的答案检索【97】，以及序列化三元组以便与(V)PLMs进行联合推理【32】【96】【106】【113–115】【117】【118】【122–125】【142】【159–161】【169】【170】。为了处理主要由事实组成的冗长输入序列，避免模型的注意力偏离其他关键提示，VLC-BERT【113】使用SBERT【171】将每个推理句的内容汇总为单个标记表示；Wang等人【159】仅选择具有较高贡献分数的事实摘要（即比原始问题更有贡献的内容）作为标题补充。

知识感知模态交互

知识感知模态交互是基于知识的多模态推理的核心，反映了人类在理解世界时应用知识的方式。
(i) 拼接：通过拼接直接合并多模态向量是一种简便而有效的模态融合方法【98】，将不同模态特征整合为单一表示。通常会使用多层感知器（MLP）对这一统一特征进行进一步优化，以增强模态间的交互和整合。在多模态融合模型如MUTAN【172】、BAN【173】和SAN【174】中，拼接是MLP层之前的初步步骤，对于实现复杂的多模态分析至关重要。
(ii) 长短期记忆（LSTM）网络：LSTM网络是将知识与多模态数据整合的基础框架。通常，LSTM编码器用于处理来自图像（I）和问题（Q）的语义输入，而LSTM解码器则用于生成答案，通过属性、标题和外部知识的嵌入初始化隐藏状态。Q被逐字分词并顺序输入系统【92】。此外，LSTM还作为文本数据的独立编码器【29】【94】【98】【100】【102–104】【107】，并利用Glove【111】【163】或预训练语言模型（PLMs）【175】【176】初始化词嵌入。输出的嵌入在随后的模态融合阶段起到支持作用，使得LSTM在文本到嵌入映射方法中具有类似关键的作用。
(iii) 动态记忆网络（DMNs）【180】：DMNs使用基于注意力的机制来过滤来自本地化小规模知识三元组嵌入的关键信息，通过跨多个数据通道的交互建模实现【93】【99】【111】【116】。通过三元组复制，VKMN【120】将每个知识三元组分解为三个键值对，例如，将 $（ h, r ）$ 作为键，将t作为值，从而减少仅使用头实体和尾实体作为检索键带来的干扰，提升推理准确性。DMMGR【107】采用这一设置，并进一步通过使用三元组的平均嵌入作为键，单独元素作为值来精细化知识三元组的构成，以增强相关性评估。这些网络应用了多尺度注意力机制，初步评估三元组嵌入的总体相关性，然后评估各元素的重要性，从而更准确地调用动态记忆。GRUC【94】使用视觉和语义场景图作为外部记忆的知识来源，通过多模态记忆的迭代更新，并使用GRU模块刷新事实实体表示，结合了先前实体的输入和上一个时间步的记忆。SUPER【111】进一步通过集成增强记忆的组件保留并调整关键线索以回答问题，这一方法称为记忆再激活。REVEAL【154】通过将每个条目压缩为一组数值嵌入和一个单键嵌入来统一多模态数据用于记忆存储，每次训练迭代重新编码10%的检索知识项，从而在记忆编码器和主框架之间实现同步且稳定的更新。
(iv) 图神经网络（GNNs）：GNNs通过整合来自图像（I）、问题（Q）和实体的表示来强调概念间的连接，每个节点（实体）由不同模态的拼接嵌入表示【100】。GNNs对实体表示进行多次迭代处理，最终学习到的实体表示输入MLP，对每个实体分配一个二元标签，以指示其作为答案的相关性。Mucko【29】区别于传统的模态嵌入拼接方法，而是独立处理不同模态的知识图谱，包括视觉场景知识图谱、来自图像标题的语义知识图谱和常识知识图谱，支持通过Q引导的注意力和跨知识图谱卷积实现精确的答案判定。Q引导的知识图谱节点加权方法在其他研究中也有类似实现【94】【101】【102】【107】【110】【131】【144】【177】。KG-Aug【102】使用GNN生成实体表示，将知识嵌入到Q和I的特征中。KRISP【30】应用了关系图卷积网络（RGCN）【178】进行符号知识推理，通过四个输入增强每个实体的表示：a）Q中概念存在的二元指示器；b）概念节点的分类器概率，如果在I中未检测到则为零，使用多种分类器和检测器；c）概念的GloVe池化表示；d）由多模态预训练模型生成的隐式知识表示【179】。VQA-GNN【177】采用双向融合的多模态GNN，通过模态间消息传递更新概念和场景图节点，以实现答案预测。
(v) 引导注意力与Transformer：Transformer架构具有多头注意力、分层堆叠和残差连接，广泛应用于多模态融合【181】。它允许多模态信息之间的充分交互，使知识嵌入与其他模态平等互动。许多研究【95】【103】【104】【132】【133】【137】采用引导注意力机制，将知识嵌入与视觉和文本特征融合。不同于自注意力，引导注意力使用一组单独的特征来引导注意力学习过程，从而实现多样化的整合，例如知识引导的视觉/文本嵌入或问题（Q）引导的视觉/知识嵌入。
(vi) 基于PLM和VLM的推理：在多模态知识融合中集成预训练语言模型（PLMs）和视觉语言模型（VLMs）是一个新兴趋势，强调高效的知识感知模态交互和答案推理。这种方法使研究人员能够专注于输入数据的组织和训练目标的设计，而无需大幅修改核心模型结构。通过这种方式，模型能够有效利用预训练模型中固有的知识，简化处理流程的开发。基于语言模型（LM）的推理主要分为两类：
a) 基于嵌入的视觉信息整合：这一类别包括将视觉数据转换为与(V)PLMs输入规范兼容的嵌入的方法【182】。该技术将视觉输入重构为嵌入，使其无缝整合到模型现有架构中，例如将图像块或局部对象特征压缩为固定长度的嵌入集合【154】【156】，或使用适配器或投影头进行跨模态特征空间对齐【96】【183】。这些视觉嵌入与文本输入结合，在(V)PLMs的嵌入层中处理【143】【156】。一些研究【106】【113】【140】【151】【152】将检索到的知识内容和问题与图像感兴趣区域结合，随后在VQA数据集上以真实答案为优化目标进行VLM的端到端微调。
通常，VLM如UNITER【184】、ViLT【185】、VL-BERT【186】、LXMERT【150】和VL-T5【187】可分为两种范式：双流和单流，其主要区别在于执行模态内融合的时机。RVL【135】和KVQAmeta【168】通过将知识图谱嵌入与PLM嵌入层输出的相应文本短语表示对齐，将知识注入VLM。 MuKEA【109】利用LXMERT的视觉和语言输出部分分别作为三元组的头实体和关系，并将真实答案配对为尾实体。该关联通过KGE方法（如TransE）实现，利用VLM中隐含的知识进行推理。VLC-BERT【113】使用Q引导的多头注意力模块，在将多个知识表示向量输入VLM之前进行融合。He等人【119】提出了一种包含图结构的Q注意力机制，通过将图感知掩码矩阵集成到Transformer的注意力矩阵中，构建V-Q引导的图以指导VLM的训练。Pang等人【188】通过在跨模态融合和解码模块之间集成冻结的LLM（LLaMA【189】）的Transformer层，增强了VLM的参数化知识注入能力。
b) 视觉数据的文本转换：这一类别将所有视觉信息转换为文本格式，如图像标题，从而能在统一的文本数据集上应用PLM推理，数据集包含背景知识、问题和图像【32】【108】【114】【121】【124】【125】【140】【142】【160】【169】【170】。这些研究通常认为，纯文本PLM可以有效推导答案，即使在图像标题中缺少细粒度视觉特征时也能弥补。Chen等人【32】展示了编码器-解码器PLM如何应对长尾问题及训练和测试集间的差异，避免了范围预测，直接生成自由格式的答案。Jain等人【134】将VQA重新定义为机器阅读理解（MRC）任务，并整合搜索引擎以提供额外背景。TRiG【142】和TwO【125】将此方法扩展为包含对象级信息（如对象、属性和OCR标签）和标题。通过与图像标题结合使用GPT-3，PICa【160】证明纯PLM在零样本和小样本学习场景中能取得出色表现。KAT【122】进一步查询GPT-3以提供推理依据，旨在从GPT-3的输出中提取更深入的见解和隐性知识以增强推理过程。REVIVE【96】使用Transformer编码器作为适配器，以利用细粒度区域的视觉信息。PROOFREAD【124】利用XGBoost【190】，一种梯度提升决策树模型，作为知识感知器，根据其在各个维度上的贡献得分对知识条目进行分类。融合在解码器（FiD）方法【191】则在编码器中单独压缩知识，在解码器中共同用于推理，已被多项研究采用【32】【96】【122】【123】【125】【142】【152】。该方法允许在(V)PLMs中同时输入大量单模态或多模态的背景知识。
为了缓解基于标题转换可能导致的细粒度视觉细节损失，Wang等人【159】利用LLM的推理能力，突出标题中可能被忽略的关键图像细节。通过将主要问题Q分解为子问题并使用预训练的VQA模型获得答案，他们识别并选择那些贡献得分高于原始Q的事实摘要，补充到初始标题中。这与KAT【122】和TwO【125】相似，后者在GPT-3中应用上下文学习（ICL），以问题Q、标题和对象标签组合为提示生成隐含的文本知识；PromptCap【169】引入Q引导的标题生成，涵盖Q所需的视觉细节；ASB【170】识别出与Q最相关的图像块，仅从这些块生成信息丰富的标题；Cola-FT【192】提示VLM单独生成标题和可能的答案，随后与指令提示、Q和选项组合，形成整体上下文，供LLM逻辑推导出答案。

知识感知的答案确定

知识感知的答案确定在生成和预测答案中起着关键作用，通常与知识感知的模态交互重叠。某些方法同时处理这两个方面，突显了它们相互交织的特性。
(i) 信息提取：此类别包括从知识图谱（KGs）或文档中检索或提取特定实体作为答案的方法。许多基于查询的方法【97】通过对子知识图谱的推理获得最终答案，具有匹配准确度高、相关性强和答案可解释性的优势，不受训练集范围的限制。然而，其效果依赖于模型解析查询的能力和知识图谱的完整性。当答案不唯一或难以找到时会出现挑战。为进一步排序潜在答案，一些方法应用启发式规则，如匹配得分计算【27】【98】和答案频率评估【27】。另一种受机器阅读理解（MRC）模型启发的技术涉及从知识库（KBs）中提取特定文本片段作为答案。例如，Luo等人【140】使用基于RoBERTa的文本编码器【193】与独特的输入结构，通过两个线性层确定答案片段的起始和结束位置。他们还实现了一个策略，在知识不足时预测“无法回答”标签，以应对检索知识中的潜在噪声。
(ii) 判别法：这些方法尤其适用于多选VQA任务，将候选答案与知识、问题和图像整合，通过判别器进行最终选择。此类方法在一定范围内缩小潜在答案时非常有效，通常使用类似GNN的模型【100】【110】【144】作为骨干。判别器可以是基于MLP的【29】【94】【99】【100】【144】或基于规则的【98】。这种方法的一个显著限制是时间消耗，尤其是在处理大量答案词汇时。
(iii) 分类法：在许多VQA任务中，可能的答案范围是预先确定的，通常由频率范围或训练期间设置的最小出现阈值约束。因此，许多研究将问答过程重构为分类问题，通常使用全连接（FC）或MLP层进行答案预测【28】【93】【95】【101】【102】【104】【105】【107】【111】【112】【120】【131】【137】【149】【151】【177】，其中输出维度对应于预定义的答案候选数量。Chen等人【31】引入了答案掩码策略，对分类器的预测答案概率施加基于知识的直接约束，从而限制潜在答案的范围。该方法类似于KRISP【30】，后者采用晚期融合来整合模型的隐含和符号组件，从组合的答案向量中选择得分最高的答案。MAVEx【133】引入了一个答案验证模块，利用来自图像（I）、ConceptNet和维基百科的知识特征对答案候选进行验证。对于基于(V)PLM的方法，通常在输出的[CLS]嵌入上附加一个分类头【109】【113】【119】【121】【135】【140】【151】【168】，常使用LXMERT【150】和BERT【175】等编码器作为骨干模型。
然而，正如Chen等人【32】指出的，基于分类的方法仍存在一个显著的权衡，即在答案覆盖率和错误率之间找到平衡。这取决于根据答案出现频率预定义候选答案集的必要性。
(iv) 生成：文本生成模型在VQA任务中变得愈加重要，尤其适用于回答超出预定义词汇的开放性问题。传统的基于LSTM的方法按顺序生成答案，通常将每个词编码为词典中的一热向量【92】。考虑到随着参数规模和预训练数据量的扩展，语言模型（LMs）的能力逐步增强【194】，这些模型生成的答案准确性现在能够弥补精确匹配标准带来的限制。因此，基于生成的(V)PLM方法正在逐渐取代传统的基于分类的方法【32】【96】【108】【114】【115】【118】【122–125】【142】【143】【152】【154】【159–161】【169】【170】【195】。如表IV所示，过去两年中基于文本生成的VQA方法显著增加。这一趋势也归因于VQA基准中使用精确匹配进行答案评估的局限性，历史上这种方式在评估开放式生成模型的性能时并未提供优势【194】。
这些方法使用基于解码器或编码器-解码器的模型，如GPT-3【196】、T5【197】、VL-T5【187】和BLIP2【91】，通过输入构建的提示隐式检索知识并进行分析推理。答案生成通常依赖贪婪解码或集束搜索策略【113】【142】【198】，前者在每一步选择最可能的词元，而后者维持一个固定大小的集束以生成排序的答案候选列表。为提高具有大量参数的模型（如GPT-3）的少样本学习性能，诸如引入高质量的ICL示例【159】【161】【169】【170】和使用多查询集成【160】【170】等策略效果显著。Prophet【161】通过先使用标准VQA模型生成候选答案，再通过GPT-3对其进行精细化处理来优化这一过程。同时，Cola-FT【192】提示VLM单独生成标题和可能的答案，然后将它们与指令提示、问题和候选选项结合，以支持基于LLM的推理。
最近的进展包括CodeVQA【162】，一种无需训练的方法，通过上下文示例提示Codex【199】将问题（Q）分解为Python代码。此方法利用预训练VLM中的预定义视觉模块，并应用条件逻辑和算术运算。与自然语言处理（NLP）的发现一致，即大型语言模型（LLMs）在逐步解决问题时推理任务性能更好【183】【200】，VQA的性能在将问题分解并逐步回答子问题时有所提升。Khandelwal等人【198】提出了连续提示法（Successive Prompting），其中LLM逐一生成并解决后续问题，利用VLM，最终得到原始问题的答案。
指标：在VQA性能评估中，准确率（Acc）是主要指标，定义为正确回答测试问题的比例。VQA挑战【87】中推荐的Acc计算标准为：

$\text{Acc(ans)} = \min\left(1, \frac{\#\text{(human that said that ans)}}{3}\right).$

该指标基于多个标注者的投票机制，为每个答案分配一个0到1的软评分。相比之下，精确匹配（EM）指标将所有标注答案视为标准答案（GT），提供了较宽松的评估标准【142】。此外，WuPalmer相似度（WUPS）【201】根据分类树中的公共子序列计算词之间的相似性。当候选答案与参考词的相似度超过特定阈值时，认为其正确。Chen等人【32】引入了基于包含和词干的Acc指标。前者认为，如果答案A在规范化后包含或被GT答案包含，则A为正确答案；后者基于A和GT答案词干的交集来评估正确性（例如，“happy”和“happiness”的词干为“happi”）。此外，其他NLP自动评估指标，不仅用于评估答案正确性，还可评估模型的解释质量。例如，生成指标如BLEU【202】、CIDEr【203】和METEOR衡量解释语句的语言质量和与参考集的相关性。这些最初为机器翻译开发的指标提供了生成解释的连贯性和流畅性方面的见解，补充了答案正确性的评估。
鉴于词汇匹配指标在评估生成模型的开放域VQA预测中的局限性，其中完全不同的词可能传达相同的含义【198】，Kamalloo等人【204】进一步提出了一种评估指标，利用InstructGPT【205】，通过给定问题（Q）和候选答案提示它来判断正确性。
在这里插入图片描述
知识库：知识感知的多模态推理的背景知识库（KBs）通常涉及多个知识图谱（KGs），每个图谱为推理过程提供独特且互补的见解。DBpedia等提供关于名人、地点和事件的琐事知识；ConceptNet等常识知识来源提供基本概念的见解，如房屋的组成部分或车轮的构造；科学知识在如hasPart KB等数据库中展示，详细描述分类和属性，如狗的属类或营养成分的种类。最后，来自Visual Genome等资源的情境知识提供上下文数据，例如汽车的典型位置或碗中常见的内容。
(i) ConceptNet【16】：封装了人类常识知识，包含usedFor、createdBy和isA等多种关系，主要来源于开放常识计划（OMCS）；(ii) DBpedia【12】：由维基百科构建，覆盖日常生活的多个领域。在此知识图谱中，各概念通过SKOS10词汇表连接到分类和超分类；(iii) WebChild【33】：通过细化关系（如hasShape、faster、bigger）将名词与形容词连接，此信息从网络中自动提取；(iv) Wikidata【81】：提供广泛的事实性知识，涵盖全球多种主题；(v) hasPart KB【206】：记录常见和科学对象之间的关系，如（Dog, hasPart, Whiskers）和（Molecules, hasPart, Atoms）；(vi) Visual Genome (VG)【49】：收集现实生活场景图，关注空间关系（例如Boat, isOn, Water）和常见用途（例如Person, sitsOn, Couch）；(vii) ATOMIC【158】：包含100多万个知识三元组，涵盖物理实体关系、事件中心关系和社交互动等主题；(viii) CSKG【207】：一个综合性资源，将来自七个不同且独立来源的常识知识整合，包括ConceptNet、Wikidata、ATOMIC、VG、Wordnet【15】、Roget【208】和FrameNet【209】。
在这里插入图片描述

表 IV：在 OKVQA [28] 和 FVQA [27] 上的基于知识的视觉问答（VQA）准确率结果比较。图标 v 表示基于知识图谱（KG）的方法；u 表示没有使用知识图谱的方法。†符号表示在VQA2.0或类似数据集上进行过预训练的方法。⋆表示在数据集版本1.1上报告的结果，该版本与1.0版本在答案派生方法上有所不同。使用的缩写说明： Q（问题），V（视觉），w/（有），KG（知识图谱），CN（ConceptNet），WP（维基百科），WC（WebChild），WD（Wikidata），DBP（DBpedia），VG（VisualGenome），YG（YAGO），HP（hasPart知识库），AT（ATOMIC [210]），AS（Ascent [211]），VLM（视觉语言模型），GNN（图神经网络），GAT（图注意力网络），MRC（机器阅读理解），MHA（多头注意力），DMN（动态记忆网络），DPR（密集段落检索器），FiD（Fusion-in-Decoder），In-context Learning (ICL)（上下文学习），GI（Google图像），GS（Google搜索），Enc.Dec.（编码器-解码器），DC（区分），IE（信息抽取），CLS（分类），TG（文本生成），WIT（Wikipedia-Image-Text [155]）。
对于同时使用PLM内在知识和外部知识库（KB）的方法，仅列出外部知识库作为知识来源。

基准数据集：我们选择FVQA【27】和OKVQA【28】作为主要数据集，因为它们对推进知识感知的VQA具有重要贡献，并对后续数据集的发展产生了显著影响。表IV展示了相关方法的时间序列分析，详细描述了其性能、模型范式和设计原则。为了进一步帮助理解该领域的发展，我们还包含了不依赖知识图谱（KGs）的基于知识的VQA方法分析，这些方法用“u”图标标记。
资源：在分析知识图谱感知的VQA数据集演变时，我们将其发展分为三大类：FVQA类型、OKVQA类型及其他类型。
(i) FVQA【27】：KB-VQA数据集【97】最初评估VQA算法利用外部知识回答复杂图像问题的能力。该数据集包含每张图片的多个Q-A对，由五位提问者使用预定义模板创建。这些问答对旨在通过DBpedia作为知识来源，探索超越视觉观察的知识层次。在KB-VQA的基础上，FVQA【27】增加了更多的问题、图片，并整合了额外的知识图谱，如ConceptNet和Webchild。FVQA是首个为每个问题提供支持性事实的VQA数据集（即外部知识事实，而非RVQA【213】中的视觉关系事实），为开发更具知识性的VQA系统奠定了基础。

变体：

ZS-F-VQA【31】：专注于零样本VQA，旨在避免训练和测试答案的重叠，关注答案偏差和词汇外（OOV）问题；
KRVQA【132】：引入约束，促进图像上下文参与，超越单纯的知识事实记忆；
FVQA 2.0【214】：增加了数据集规模并引入对抗性问题变体，以平衡原数据集的答案分布。

(ii) OKVQA【28】：与FVQA不同，OKVQA数据集侧重于开放世界VQA，涉及隐式需要外部知识的问题，但不指定直接的知识库链接或提供明确的知识图谱三元组。其广泛的知识范围使其成为与VQA2.0数据集【87】并列的基准。

变体：

OKVQAS3和S3VQA【134】：通过加入需要图像对象检测的问题增强了原始OK-VQA，随后在查询中替换检测到的对象并使用网络搜索找到答案；
A-OKVQA【215】：引入了更广泛的世界知识和更多的推理步骤扩展了OK-VQA，并为每个问题提供推理依据，以支持训练可解释的VQA模型；
OKVQA2.0【216】：通过修正并为Q-I对附加维基百科来源，进一步完善OK-VQA；
ConceptVQA【217】：通过与ConceptNet实体对齐的实体级注释丰富了OK-VQA，确保测试集的答案与训练集不重叠，类似于ZS-F-VQA【31】，构成了独特的挑战。

(iii) 其他：

Li等人【218】开发了Visual7W+KB，基于Visual7W测试集图像【219】，使用预定义模板和ConceptNet【16】指导自动生成问题；
KVQA【93】整合了关于命名实体（如Barack Obama和白宫）的世界知识，来源于Wikidata【81】，并在图像分析中使用人脸识别技术；
ViQuAE【138】扩展了KVQA的范围，涵盖了除人物之外的更广泛实体类型；
VCR【220】针对电影场景中人类意图理解，提出类似“为什么[PERSON]这样做？”的问题；
AI-VQA【149】利用Visual Genome场景图和ATOMIC知识图谱【158】的事件知识，增加了志愿者标注的问答对和详细的场景/对象描述；
DANCE【221】将知识三元组重新格式化为配有图像的自然语言谜题，旨在为视觉语言模型注入常识知识；
Gao等人【222】引入了LoRA数据集，专注于VQA中的形式和复杂描述逻辑推理。LoRA围绕与食物和厨房情境相关的知识库展开，旨在提升VQA模型的逻辑推理能力，这是现有VQA数据集难以充分评估的；
ScienceQA【223】来源于小学和中学科学课程，包括21,208个条目，配有讲解和解释。它要求模型在广泛的学科范围内生成连贯的解释，使其区别于OKVQA。虽然其设计中未使用知识图谱，ScienceQA在推动知识密集型多模态模型发展中具有关键作用，这标志着未来知识图谱感知VQA方法的显著进步。

此外，知识图谱感知的VQA还可以扩展到传统设置以外的各种场景。例如，KnowIT VQA【224】包含来自《生活大爆炸》的视频片段及相关的基于知识的问答对，由熟悉剧集内容的资深粉丝标注；KEQA【225】使用知识库和3D场景图，使AI代理能够在环境中导航并回答与环境相关的自然语言查询。

讨论1：VQA数据集在答案格式上有所不同，包括多项选择（模型从提供的选项中选择）和开放式格式（测试模型的理解、推理和独立回答生成或检索能力）。除了答案格式外，数据集中一个重要的考量是是否提供用于回答问题的事实集（Ground Truth, GT）。如FVQA系列的数据集包含自身的GT事实，而OKVQA系列则不包含。这些事实理想情况下应当用于评估模型的知识图谱事实检索能力，而非用于训练（如用于预训练关系分类器）。此外，选择合适的知识来源和知识过滤方法对模型性能也至关重要。

此外，如表IV所示，VQA工作的比较可能受到不同的背景知识图谱来源和骨干模型的影响。为了公平的比较分析，确保这些方面的一致性至关重要。研究人员需要明确区分改进的原因是知识库的质量、知识图谱集成方法，还是骨干模型自身的能力。这些经常被忽视的区分对于理解该领域的真正进展至关重要。仅依赖复杂的视觉、语言或多模态骨干来声称达到最新技术（SOTA）结果，而未确保模型参数的统一性和公平比较，可能会影响研究结果的可信度。鉴于VQA的实际应用，时间、空间复杂度、实时消耗和GPU需求等额外因素对于这些模型的全面评估也同样重要。

IV-A2 视觉问题生成

2) 视觉问题生成（VQG）：VQG【226–228】通过视觉提示生成问题，不同于传统VQA，VQG更侧重于问题的创建。这一过程在教育应用中尤为重要，例如通过提问有关图像的问题来激发儿童的学习兴趣。早期的VQG模型【229】使用RNN仅基于图像生成问题，导致生成的问题往往缺乏特定的焦点。在知识图谱感知的VQG领域，志愿者通过整合ConceptNet和Atomic【158】等外部知识与图像内容创建了K-VQG数据集【230】，使用部分屏蔽的常识三元组来为问题注入知识。Xie等人【226】开发了一个包含视觉概念特征提取器、知识表示提取器、目标对象提取器和解码器的流程。此流程与图6中概述的过程一致，将非视觉知识集成到VQG中，并使用FVQA进行评估。KECVQG【227】使用因果图分析并纠正VQG中的虚假关联，通过将无偏特征与外部知识关联，从而解开视觉特征以减弱这些关联的影响。
与VQA不同，VQG方法更注重评估问题的意义、逻辑合理性以及与目标知识的一致性，而非严格的正确性【230】。通常使用类似NLP的评估指标，如BLEU和CIDEr来进行评估。

讨论2：实现与聊天机器人的智能对话仍然是VQG的关键目标，尤其在于让机器人能够提出精确且富含知识的问题，从而增强未来的解决问题能力。同样重要的是向更具互动性的知识图谱感知VQG系统发展，使其能够基于用户交互和反馈动态调整提问策略，这标志着未来研究的重要方向。此外，随着VQA的快速发展，将VQA中的常见问题和方法迁移并适配到VQG领域，有望进一步推动问题生成技术的创新突破。

IV-A3 视觉对话

3) 视觉对话（VD）：VD【231】扩展了VQA任务，采用多轮问答格式，围绕单张图片展开连续的问答对话。这种设置从VQA的单一问题聚焦转变为对图像的动态交互对话，对智能体提出了更高要求，使其需基于对话上下文灵活解读视觉元素之间不断变化的关系。VD方法通常利用历史对话信息作为背景知识【232–236】，采用视觉图构建、查询引导的关系选择和GNN传播进行对话推理。Guo等人【232】【237】引入Q条件注意力，聚合对话历史中的文本上下文，构建一个上下文感知的对象图，用于Q引导的信息传递。同样，KBGN【233】使用跨模态GNN弥合模态间的差距，捕捉跨模态语义，从视觉和文本来源检索与当前问题相关的信息。为克服仅依赖图像和对话历史内部知识的局限，一些方法集成了常识知识以增强对话深度。这些方法均符合我们之前概述的知识图谱感知理解与推理范式（图6）。

例如：
(i) 知识检索：SKANet【238】使用概念识别和n-gram匹配技术从ConceptNet构建子知识图谱，将常识知识整合到VD中。
(ii) 知识表示：KACI-Net【239】选择至少包含问题中提到的两个实体或关系的三元组，将其转换为文本格式以便后续处理。
(iii) 知识感知模态交互：RMK【240】利用基于标题的密集检索从ConceptNet中提取相关事实，通过句子级和图级跨模态注意力及嵌入拼接将知识注入对话。
(iv) 知识感知答案确定：为解决从检索知识中未观察到的混杂因素带来的虚假相关性问题，Liu等人【241】构建了一个反事实常识感知的VD因果图，通过反事实推理减轻常识偏差，减少误导性或不准确常识对答案推导的影响。

讨论3：目前，基于知识的VD主要聚焦于使用外部常识知识，而科学知识和情境知识等其他类型的知识相对较少被探索。然而，随着大型语言模型（LLM）的兴起，VD与VQA之间的界限逐渐模糊，VQA中的上下文学习技术（In-context Learning）逐渐削弱了对话中传统上下文的作用。这一转变促使我们需要重新评估VD的独特贡献及其未来发展路径。随着VD和VQA边界的不断融合，识别并阐明VD的独特潜力变得愈发重要。