BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Gen-优快云博客

发表时间：PMLR 2022

论文链接：https://proceedings.mlr.press/v162/li22n/li22n.pdf

作者单位：Salesforce Research

Motivation：现有的VLP存在的两个问题：（擅长理解或生成任务，次优的监督数据源）

模型角度：大多数方法只采用基于编码器或编码器-解码器模型。基于编码器的模型不能直接应用于文本生成任务（图像字幕生成，例如CLIP，ALBEF），而编码器-解码器模型不能直接应用于图像-文本检索任务（例如SimVLM）
数据视角：大多数最先进的方法（如 CLIP、ALBEF、SimVLM）都在从网络收集的图像-文本对上进行预训练。尽管扩大数据集后性能有所提高，但有噪声的网络文本训练只是次优解，因为收集到的图文对中会有很多噪声数据，虽然通过以量取胜，降低噪声带来的影响，但是不可避免这种监督的结果不是最优的。

解决方法：为了克服现有VLP的缺陷，提出了BLIP：（擅长理解和生成任务，能过滤掉噪声字幕）

提出的BLIP：Bootstrapping Language-Image Pre-training（引导语言图像预训练），用于统一视觉语言理解和生成。BLIP 是一个新的 VLP 框架，它可以灵活地应用于视觉语言理解和生成任务。BLIP 通过引导字幕有效地利用了嘈杂的网络数据，字幕生成器生成合成字幕，过滤器去除嘈杂的字幕。

主要贡献：

多模态混合编码器-解码器（MED（Multimodal Encoder-Decoder））：用于有效的多任务预训练和灵活的迁移学习。MED 可以作为单模态encoder、基于image-grounded text encoder或image-grounded text decoder运行。该模型通过三个视觉语言目标进行联合预训练：图像文本对比学习（ITC）、图像文本匹配（ITM）和图像条件语言建模（LM）。
字幕生成和过滤（CapFilt）：一种从噪声图像-文本对中学习的新数据集提升方法。 BLIP将预训练好的 MED（Multimodal Encoder-Decoder）微调为两个模块：一个是字幕生成器，用于给网络图像生成合成字幕；另一个是过滤器，用于去除原始网络文本和合成文本中的噪声字幕。

实现方式：

训练过程： 1. 使用带噪声的网络数据训练BLIP 2. 将预训练MED微调为Captioner和Filter两个模块 3. 使用微调后的Captioner对训练数据生成一系列的字幕 4. 把这些生成的字幕和原始网络文本通过预训练的 Filter 过滤，删除噪声文本字幕 5. 最后将过滤后的图像-文本配对与人工标注的配对结合起来，形成一个新的数据集，重新训练一遍BLIP
模型结构

新模型架构 MED 1. 视觉编码器提取图片特征。第一列，MED采用ViT作为图像编码器，它将输入图像分割成patches，并将其编码为嵌入序列，再加上一个[CLS]标记来表示全局图像特征。 2. 文本编码器提取文本特征。第二列，MED采用BERT作为文本编码器，其中在文本输入的开头附加一个 [CLS] 标记，以总结句子。 3. 视觉文本编码器：Image-grounded text encoder。上图第三列，是MED的视觉文本编码器，其在每个transformer block中的bi-self-attention层（Bi-SA）和 feed forward network（FFN）之间插入一个额外的cross-attention（CA）以注入视觉信息。在输入端，[Encode]标记被附加到文本开头，用[Encode]的输出嵌入作为图像-文本对的多模态表示，该模块主要用于图文匹配的二分类预训练任务。 4. 视觉文本解码器：Image-grounded text decoder:如上图第四列，是MED的视觉文本解码器，用causal self-attention层取代Image-grounded text encoder中的Bi-SA。添加一个额外的 [Decode] token 和结束 token，作为生成结果的起点和终点。该模块主要用于字幕生成预训练任务。
预训练目标 BLIP在预训练过程中对三个目标进行了联合优化，其中包括两个基于理解的目标和一个基于生成的目标。 1. 图像-文本对比损失（Image-Text Contrastive Loss，ITC）:主要用于ViT和BERT的组合。其目标是使正样本图像-文本对的相似度更大，负样本图像-文本对相似度更低。BLIP沿用了ALBEF的 ITC 损失法，即引入动量编码器来生成特征，并从动量编码器中创建软标签作为训练目标，以考虑负对中潜在的正标签。 2. 图像-文本匹配损失（Image-Text Matching Loss，ITM）:主要用于ViT和Image-grounded text encoder的组合。其目标是学习图像-文本多模态表征，捕捉视觉和语言之间的细粒度匹配。ITM 是一个二分类任务，模型使用 ITM 头（线性层）预测图像-文本对的多模态特征是正面（匹配）还是负面（不匹配）。 3. 语言建模损失（Language Modeling Loss，LM）: 语言建模损失（LM）主要用于ViT和Image-grounded text dncoder的组合，其目标是生成给定图像的文本描述，以自回归的方式最大化文本的可能性。在计算损失时，BLIP使用了 0.1 的标签平滑。与广泛用于 VLP 的 MLM 损失相比，LM 使模型具有将视觉信息转换为连贯标题的泛化能力。
用于数据集引导的 CapFilt方法

CapFilt这一新方法来提高文本语料库的质量。上图是 CapFilt 的示意图。它引入了两个模块：一个是为网络图片生成标题的字幕器，另一个是去除图片-文本对噪声的过滤器。字幕器和过滤器都从同一个预训练的 MED 模型初始化，并在 COCO 数据集上分别进行微调。

Captioning：字幕器是一个image-grounded text decoder。它以给定图像解码文本为 LM 目标进行微调。给定网络图像Iw，字幕器生成字幕Ts。
Filtering：过滤器是一个 image-grounded text encoder。它根据 ITC 和 ITM 目标进行微调，以了解文本是否与图像匹配。如果 ITM 头预测文本与图像不匹配，则该文本被视为噪声文本。最后，我们将过滤后的图像-文本配对与人工标注的配对结合起来，形成一个新的数据集，用于预训练一个新的模型。

实验：使用了与ALBEF相同的预训练数据集，共有 1400 万张图片，其中包括两个人类注释数据集（COCO 和 Visual Genome）和三个网络数据集（Conceptual Captions 、Conceptual 12M、SBU captions）。我们还使用了另一个网络数据集 LAION进行了实验，该数据集包含 1.15 亿张图片和更多噪声文本。

结论：因为BLIP有四层架构，所以它可以使用网络架构的不同部分完成不同的任务。如图文检索、字幕生成、视觉问答、自然语言视觉推理、视觉对话和视频语言任务。

Parameter Sharing and Decoupling(参数共享和解耦)

通过实验证明text endocer和decoder中共享除SA层外的其他参数对模型训练有益：在预训练过程中，文本编码器和解码器共享除 self-attention层之外的所有参数。我们对采用不同参数共享策略预训练的模型进行了评估，其中预训练是在包含网络文本的 1400 万张图像上进行的。结果表明，与不共享相比，共享除 SA 层以外的所有层会带来更好的性能，同时还能减少模型大小，从而提高训练效率。如果共享 SA 层，由于编码任务和解码任务之间的冲突，模型的性能会下降。
通过实验证明CapFilt中的Captioning和Filtering共享参数会使性能下降： 在 CapFilt 期间，字幕器和过滤器在 COCO 上进行端到端单独微调。我们研究了如果字幕器和过滤器以与预训练相同的方式共享参数的效果。下游任务的性能有所下降，我们将其主要归因于确认偏差。由于共享参数，字幕器产生的噪声字幕被过滤器过滤掉的可能性较小，这一点可以从较低的噪声比（8% 比 25%）看出。