《Contrastive Language-Image Pre-Training with Knowledge Graphs》中文校对版-优快云博客

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/143256499

文章汉化系列目录

文章目录

文章汉化系列目录
摘要
1 引言
2 相关工作
3 对比语言-图像预训练 (CLIP)
4 Knowledge-CLIP
5 实验
6 结论
7鸣谢

摘要

近年来，大规模预训练框架快速发展，能够以统一的形式提取多模态表示，并在迁移到下游任务时取得了显著性能。然而，现有方法主要集中在简单的图文对预训练上，而忽视了来自不同模态的概念之间的语义关联。本文提出了一种基于知识的预训练框架，称为Knowledge-CLIP，它将语义信息注入到广泛使用的CLIP模型[38]中。通过在预训练过程中引入基于知识的目标，并利用不同类型的知识图谱作为训练数据，我们的模型能够在视觉和语言中实现更高质量的语义对齐表示，并增强跨场景和模态的推理能力。在多个视觉-语言下游任务上的广泛实验表明，与原始CLIP和其他竞争基准相比，Knowledge-CLIP具有显著的有效性。

1 引言

近年来，大规模视觉-语言预训练引起了广泛的研究兴趣 [9, 26, 38, 72]。与为每个特定任务训练独立模型不同，预训练模型借鉴了人类生物智能系统的类比，试图从多种数据模态中感知世界并处理综合任务。具体而言，它旨在提供一个统一的推理范式，同时学习多模态数据的表示，并能够轻松地迁移到各种下游任务中。得益于从网络中获取大量图文对的便利，视觉-语言预训练可以利用更广泛的监督资源，从而有效提升模型的泛化能力。
早期在视觉-语言预训练方面的尝试主要集中在检测图像中的对象，并将相应的词标记与对象区域对齐 [9, 28, 50]。尽管这些方法有效，但对对象概念的依赖以及预训练对象检测器所需的额外资源对实际应用构成了限制。作为开创性工作之一，CLIP [38] 将预训练数据集的规模扩展至4亿图文对，通过直接匹配原始文本和相应图像来学习表示。通过基于对比的训练方案，CLIP在大词汇量下学习视觉概念，显著提升了模型在多种下游任务中的表现。受CLIP启发，后续研究从多个角度进一步扩展了这一工作，包括数据模态 [72]、下游任务 [57] 和训练数据效率 [19, 44] 等方面。
尽管表现出令人鼓舞的结果，当前的预训练框架也存在一些局限性。具体来说，预训练的数据对以最简单的方式组织，仅通过“匹配”与“不匹配”的描述来表示给定图文对之间的关系。这通常导致模型依赖输入的共现性而非其语义含义的退化情况。我们在图1中给出了一个示例，通过在ImageNet数据集 [10] 上使用模板“a photo of a {}”和“not a photo of a {}”评估CLIP的零样本迁移表现。结果显示，CLIP在两个模板下的输出分布非常相似，表明当前模型未能理解词标记的语义含义。因此，模型的迁移能力受到限制，并且在需要推理能力的任务上（如视觉问答）表现较差。
在这里插入图片描述

图1说明： CLIP未能准确捕捉某些细粒度的语义信息。当提供相反的语义描述时，例如在模板中添加“not”或使用错误的颜色描述图像时，CLIP往往会给出与正确描述类似的分布。最佳效果请使用彩色查看。

为了解决预训练模型在语义感知上的局限性，我们采用知识图谱技术，该技术在自然语言处理领域已被广泛研究 [7, 58]。知识图谱（KG）是一个大规模的语义网络，将实体作为节点，语义关系作为边。通过将数据组织成图结构，知识图谱提供了丰富的信息来描述实体之间的关系，并支持整个图上的推理过程。与普通结构化数据相比，这些优势对各种任务（如问答 [18, 70]、关系预测 [29, 43] 和知识推理 [6, 59]）都具有重要价值。近年来，知识图谱在计算机视觉领域也得到了探索，例如场景图 [65] 和语言与图像的整合 [2]。这弥合了知识图谱中不同模态之间的差距，启发我们探索一种新的基于知识的预训练框架，将语义信息注入到简单的图文对中。
本文提出了一种新颖的视觉-语言预训练方法，称为Knowledge-CLIP，通过基于广泛使用的CLIP模型构建知识增强的预训练框架。如图2所示，我们遵循CLIP的结构，分别使用基于Transformer的模型作为图像和文本编码器。这两个编码器将知识图谱中的实体和关系作为输入，提取实体和关系的基础特征。值得注意的是，实体可以是图像或文本形式，而关系始终用语言标记来描述。接着，采用多模态Transformer编码器在关系条件下融合实体特征。通过这种方式，预训练模型被引导聚焦于理解视觉与词汇概念之间的语义关系，从而在视觉和语言模态之间建立强有力的语义连接。
为了进一步提高训练效率并避免预训练过程中巨大的计算成本，我们采用了一种简单的连续学习策略，即基于CLIP的预训练权重对模型进行训练。这样可以在较低的训练资源下高效提升CLIP模型的性能。
我们在三个知识图谱数据集上训练模型，分别是Visual-Genome [24]（场景图）、ConceptNet [46]（基于语言的图谱）和VisualSem [2]（多模态图谱），并且采用部分CLIP的数据集以避免模型遗忘问题。通过知识增强的预训练，Knowledge-CLIP在多种视觉和语言下游任务上相较于原始CLIP模型实现了持续的性能提升。
在这里插入图片描述

图2说明： 我们的框架概览。(A) 给定包含实体 $h$ 和 $t$ 及其关系 $r$ 的数据三元组 $(h, r, t)$ ，图像和文本编码器首先提取原始特征，接着多模态编码器处理拼接后的三元组序列，并输出三元组和关系的表示。(B) 我们框架中采用的三类训练目标。

2 相关工作

大规模预训练。 得益于Transformer在视觉 [35, 63, 36] 和语言 [54] 任务中的发展，大规模预训练框架在近年来备受关注，并在计算机视觉和自然语言处理中显示出令人鼓舞的成果。GPT [39] 是语言预训练的开创性工作之一，通过优化序列中前置词的输出概率。BERT [11] 采用了掩码语言模型技术，根据未掩码的词预测被掩码的词。同样，计算机视觉领域也因大规模图像数据集的出现而推动了预训练模型的发展。IGPT [5] 提出了生成预训练技术，并在分类任务中表现优异。MAE [17] 采用了类似于BERT的预训练方案，使用未掩码的区域来预测图像的掩码区域。
多模态预训练不同于上述框架，需对不同数据模态进行对齐。利用从互联网收集的大量图文对，视觉-语言模型在多种下游任务中显著提升了性能。这些方法中采用了多种预训练方案，包括对比学习 [1, 27, 31]、掩码语言模型 [47, 51] 和掩码区域模型 [9]。语义误解问题也在先前的研究中被关注。例如，EICLIP [33] 考虑了电商领域的跨模态检索问题，与本研究观点相似，作者发现CLIP对特定词标记存在偏见，并引入因果推理来对齐文本编码器与电商领域知识。K3M [73] 聚焦于模态缺失和模态噪声问题，将知识模态引入电商任务。DeVLBert [69] 研究了不同模态间的虚假关联，调整了图像和词标记的条件概率。KaleidoBERT [74] 通过引入多种新颖的自监督任务，关注图文连贯性。相比先前方法，我们首次在预训练过程中结合多模态知识图谱，有效增强了模型对视觉与语言概念之间语义关系的感知能力。

知识图谱。 知识图谱最初在自然语言处理领域引入，其嵌入方法成功捕捉了符号（实体和关系）的语义，并在文本理解 [13, 66]、推荐系统 [16, 56] 和自然语言问答 [18, 70] 等广泛实际应用中取得了显著成果。另一方面，场景图是计算机视觉中的一种图结构数据，图像中的视觉概念通过语义关系相连接。场景图注重图像的细粒度语义特征，被广泛应用于场景图生成 [65]、场景图解析 [68] 等任务。除场景图外，知识图谱还被应用于其他计算机视觉任务，包括图像分类 [22]、全景分割 [62] 和图像描述 [71]。基于此，多模态知识图谱近年来受到广泛关注。鉴于不同数据模态之间的自然对齐，多模态知识图谱被广泛应用于基于图的任务，包括链接预测 [3, 30]、实体分类 [61]，并在超出图的应用中表现出巨大潜力，如视觉问答 [20, 41] 和推荐系统 [49, 52]。

3 对比语言-图像预训练 (CLIP)

我们首先简要回顾CLIP的模型架构和训练设置。CLIP使用两个独立的模型分别作为图像编码器和文本编码器。对于文本输入，采用一个具有512宽度和8个注意力头的12层Transformer。原始文本首先通过字节对编码（BPE）[40] 转换，词汇量为49,152。文本序列长度上限为76，并在进入文本编码器前加入位置编码。另一方面，CLIP的图像编码器有基于ResNet和Vision Transformer的不同版本。由于后续研究表明Vision Transformer模型性能更佳，本文仅考虑基于Transformer的图像编码器。与文本输入类似，图像首先被划分为小块并加入位置编码。在两个编码器的最后阶段，采用全局池化函数将特征图压缩为单一特征，作为整个图像/文本序列的表示。图像和文本特征的余弦距离作为数据对的相似度。

在训练监督中，采用对比损失来最大化匹配对的相似度，同时最小化不匹配对的相似度。对于一个包含 $N$ 个数据对 ${I_i, T_i\}_{i=1}^N$ 的批次，其中 $I_i$ 和 $T_i$ 分别表示第 $i$ 个图像和文本，损失函数可参数化为：

$\frac{1}{2} \sum_{i=1}^N \left( \log \frac{\exp(\cos(f_I(I_i), f_T(T_i)) / \tau)}{\sum_{j=1}^N \exp(\cos(f_I(I_i), f_T(T_j)) / \tau)} + \log \frac{\exp(\cos(f_I(I_i), f_T(T_i)) / \tau)}{\sum_{j=1}^N \exp(\cos(f_I(I_j), f_T(T_i)) / \tau)} \right)$

其中 $f_I$ 和 $f_T$ 分别对应图像和文本编码器， $\cos(\cdot)$ 表示输入之间的余弦相似度， $\tau$ 是一个可学习的温度参数，初始值为0.07。

这种简单的训练框架带来了一些需要解决的问题。首先，由于数据结构简单，预训练框架未能对输入的语义信息建模，导致在需要推理能力的任务上表现较差，例如视觉问答和视觉常识推理。其次，图像和文本特征位于不同的空间，难以建模不同模态间的交互。第三，训练过程中的大量时间和资源消耗限制了从头进行完整预训练的可能性。

4 Knowledge-CLIP

如上所述，CLIP的迁移性和模型性能提升受到一些问题的制约。本文提出了一种基于知识图谱的新型预训练框架，以多个方面改进原始CLIP模型的局限性：(1) 我们在训练数据集中引入知识图谱，通过图结构数据和概念之间的语义关系，使模型能够提取语义特征并在输入间建立语义连接；(2) 在现有的图像和文本编码器之上添加多模态编码器，以融合不同模态的特征并建模输入间的联合分布；(3) 采用基于CLIP预训练模型的连续学习策略，避免预训练过程中的大量计算成本，同时有效提升模型的泛化能力。

我们将在以下各节中详细介绍该框架，总览如图2所示。