CVPR2022 | ZeroCap：零样本图像到文本生成的视觉语义算法

最新推荐文章于 2025-12-02 15:55:42 发布

原创

最新推荐文章于 2025-12-02 15:55:42 发布 · 2.8k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #深度学习 #人工智能

ZeroCap结合视觉语义匹配模型与大型语言模型，无需训练即可生成图像描述。该方法利用CLIP评估文本与图像的相关性，通过调整语言模型生成符合图像内容的句子。此外，还展示了通过图像嵌入空间的算术操作执行语义分析的能力。

CVPR2022 | ZeroCap：零样本图像到文本生成的视觉语义算法

【写在前面】

最近的文本到图像匹配模型将对比学习应用于大量未经管理的图像和句子对。虽然此类模型可以为匹配和后续的zero-shot任务提供强大的分数，但它们无法在给定图像的情况下生成标题。在这项工作中，作者重新利用这些模型来在推理时生成给定图像的描述性文本，而无需任何进一步的训练或调整步骤。这是通过将视觉语义模型与大型语言模型相结合来完成的，受益于这两种网络规模模型中的知识。由此产生的字幕比通过监督字幕方法获得的字幕限制要少得多。此外，作为一种零样本学习方法，它非常灵活，展示了它执行图像运算的能力，其中输入可以是图像或文本，输出是一个句子。这实现了新颖的高级视觉功能，例如比较两个图像或解决视觉类比测试。

1. 论文和代码地址

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

论文地址：https://arxiv.org/abs/2111.14447

代码地址：https://github.com/YoadTew/zero-shot-image-to-text

2. 动机

深度学习至少导致了计算机视觉的三大革命：（1）机器在多个领域中比预期更早地实现了被认为是人类水平的性能，（2）有效的迁移学习，支持新领域的快速建模，以及（3）通过使用对抗性和自监督学习实现无监督学习的飞跃。

当前正在发生的第四次革命是零样本学习。 OpenAI 的一项开创性工作提出了基于变压器的GPT-3 模型。该模型在非常大的文本语料库上进行训练，然后可以根据提示生成文本。如果提示包含指令，GTP-3 通常可以执行它。例如，给定提示“将英语翻译成法语：typical → typique→house → . . .”会生成“maison”这个词。

后来 OpenAI 在计算机视觉中也展示了令人印象深刻的零样本能力。虽然最先进的计算机视觉模型通常被训练为推断固定数量标签的任务特定模型，但 Radford 等人提出了 CLIP 图像-文本Transformer模型，该模型可以执行数十个下游任务，无需进一步训练，其准确性可与现有技术相媲美。这是通过在给定图像的情况下从“这是 X 的图像”形式的句子中选择最佳匹配来完成的。

在这项工作中，作者使用 CLIP 来执行 DALL-E 的逆任务，即零样本图像字幕。给定一张图像，作者使用 CLIP 和 GPT-2 语言模型（无法访问 GPT-3）来生成输入图像的文本描述。除了 Radford 等人展示的固定提示零样本学习之外，这为 CLIP 添加了新的图像分析功能。
作为一种零样本方法，本文的方法不涉及任何训练。有人可以争辩说，底层 CLIP 模型是用与图像字幕方法训练的完全相同类型的监督来训练的，即成对的匹配图像和字幕。然而，图像字幕方法是从精选来源训练的，例如 MSCOCO 或 Visual Genome，而 CLIP 是在 Web Image Text (WIT) 上训练的，这是一个自动收集的网络规模数据集。以前在 WIT 上训练字幕模型的尝试导致在识别图像中的对象方面表现不佳。

由于方法和基础数据的差异，本文的方法产生的字幕与监督字幕方法获得的字幕非常不同。虽然监督方法可以模仿人类注释器并提供相似的句子，但就常规 NLP 指标（例如 BLEU ）而言，本文的结果在视觉语义 CLIP 嵌入中表现出更大的自由度并更好地匹配图像空间。此外，合并到 CLIP 和 GPT-2 中的语义知识体现在生成的标题中，见上图。
除了获得的字幕的不同性质之外，本文的方法也更加灵活，因为所有计算都发生在推理时间。具体来说，作者展示了通过使用一种新的算术形式在图像空间中执行语义分析的能力。NLP 中概念算术的一个著名示例是检索词“queen”作为嵌入空间中最接近涉及与“king”、“man”和“woman”相关的嵌入向量的方程，在从第一个减去第二个并添加第三个之后。作者展示了一种新颖的能力，仅使用图像而不是单词，因此结果生成为短句，而不仅仅是单词，见上图。

作为推论，例如，可以询问两个场景之间的区别是什么。这种在语义上比较两个图像的能力是一种新颖的计算机视觉能力，它进一步展示了零样本学习的力量。

3. 方法

视觉字幕是为图像生成描述性句子的过程。它可以形式化为给定输入图像 I 的序列生成问题，即作为句子的第 i 个单词 xi 的条件概率推断。

这通常以有监督的方式完成，通过优化权重来重现真实句子。然而，由于精心策划的数据集很小，并且无法充分描述所有图像，因此生成的句子通常描述场景中存在的对象的基本级别的内容，并且听起来很人工。使用网络规模的数据集可以缓解此类问题。作者提出了一种使用大规模文本图像对齐模型来引导大规模语言模型的零样本方法。

Overview

本文的方法使用基于Transformer的 LM（例如 GPT-2）从初始提示中推断下一个单词，例如“a 的图像”，如上图所示。为了将图像相关知识纳入自回归过程，校准的 CLIP 损失 $\mathcal{L}_{\text {CLIP }}$ 会刺激模型生成描述给定图像的句子。一个额外的损失项 $\mathcal{L}_{\mathrm{CE}}$ 用于维护类似于原始语言模型的下一个token分布。

此外，本文方法的灵活性能够通过 CLIP 嵌入空间中的视觉线索的简单算术来捕获语义关系。最后，将多模态编码器与本文的方法相结合，可以以一种在文本和图像之间混合的新方式提取知识。

Language models

近年来，LM 有了显着提高，并且越来越接近 AI 完备的能力，包括广泛的外部知识和在有限监督下解决各种各样的任务。基于 Transformer 的 LM 通常在每个时间步对生成的token和过去的token之间的交互进行建模。

transformer 块具有三个嵌入函数 K、Q、V 。前两个，K，Q，学习决定 V 分布的token交互。注意力机制基于查询和键之间的相似性来汇集值。具体来说，每个token i 的池化值取决于与此token $Q_{i}$ 关联的查询，该查询是使用函数 Q 在此token的当前嵌入上计算的。基于 $Q_{i}$ 和与所有token $ K_{j} $关联的键之间的余弦相似度，作为值向量的加权平均值获得结果。

虽然 K 和 V 是函数，但在生成文本时会重复使用获得的键和值 $ K_j $和 $V_j$ ，一次一个词。因此，$ K_j $和 $V_j$ 可以存储在所谓的上下文缓存中，以便跟踪 K 和 V 的过去嵌入输出。

其中 $\mathcal{X}_{i}$ 是生成句子的第 i 个词， $K_{j}^{l}, V_{j}^{l}$ 是上下文Transformer的第 j 个标记的键和值，l 表示Transformer层的索引，总共 L 层。本文的方法采用 GPT-2，它有 L = 24 层。

接下来描述如何将本文的 LM 与输入图像对齐。通过在推理过程中修改上下文缓存的值来保持 LM 不变。

CLIP-Guided language modelling

本文的目标是在每一代步骤中引导 LM 朝着期望的视觉方向前进。提出的指导有两个主要目标：（i）与给定图像对齐； (ii) 维护语言属性。第一个目标是通过 CLIP 获得的，CLIP 用于评估token与图像的相关性并相应地调整模型（或者更确切地说，缓存）。对于第二个目标，将目标规范化为与原始目标输出相似，即在修改之前。

求解的优化问题在每个时间点调整上下文缓存 $C_{i}$