《BLIP》-用更干净更多样的数据进行多模态预训练，性能超越CLIP！

最新推荐文章于 2025-10-30 09:37:39 发布

原创

最新推荐文章于 2025-10-30 09:37:39 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

BLIP是一个新型的视觉语言预训练框架，旨在克服现有模型架构和数据集噪音的问题。它提出了一种多模态混合编码器-解码器(MED)架构，能有效支持多任务预训练，并通过CapFilt方法从嘈杂的image-text对中学习。实验表明，这种方法在image-text检索、captioning、问答等任务上实现了最优性能，并在video-language任务中实现了zero-shot state-of-the-art。

一、简介
近期，Visual-language预训练在各种多模态下游任务中取得了巨大的成功。然而，现有的方法存在着两个限制：

模型视角

许多模型都采用基于编码器的架构或者编码器-解码器的架构。然而，基于编码器的模型并不能直接用于文本生成任务，而编码器-解码器架构并没有成功的应用于image-text检索任务。

数据视角

许多的state-of-the-art方法(例如：CLIP,ALBEF,SimVLM)都在从网络上收集的image-text对数据上进行预训练。尽管通过扩大数据集的规模获得了性能增益，但本文也展示了带有噪音的web文本对于vision-language学习来说是次优解。

为此，作者提出了BLIP: Bootstrapping Language Image Pre-training for unified vision-language understanding and generation。BLIP是一个新的VLP(Vision-Language Pre-training)框架，其能够更加广泛的支持下游的任务。其从模型和数据视角做出了两个贡献

编码器-解码器的多模态混合(MED) \text{(MED)}(MED)：一个用于高效多任务预训练和灵活迁移的新模型架构。一个MED \text{MED}MED可以是单模态的编码器，也可以是基于图像的文本编码器/解码器。模型通过三个vision-language目标函数进行预训练：image-text对比学习、image-text匹配和图像条件语言建模。
CapFilt(Captioning and Filtering) \text{CapFilt(Captioning and Filtering)}CapFilt(Captioning and Filtering)：用于从噪音image-text对中学习的新数据集boostrapping方法。微调预训练MED \text{MED}MED为两个模块：一个用于为给定图像生成合成captions的captioner，以及一个从原始web文本和合成文本移除噪音captions的filter。
作者进行了大量的实验和分析，做出了如下