一、简介
近期,Visual-language预训练在各种多模态下游任务中取得了巨大的成功。然而,现有的方法存在着两个限制:
模型视角
许多模型都采用基于编码器的架构或者编码器-解码器的架构。然而,基于编码器的模型并不能直接用于文本生成任务,而编码器-解码器架构并没有成功的应用于image-text检索任务。
数据视角
许多的state-of-the-art方法(例如:CLIP,ALBEF,SimVLM)都在从网络上收集的image-text对数据上进行预训练。尽管通过扩大数据集的规模获得了性能增益,但本文也展示了带有噪音的web文本对于vision-language学习来说是次优解。
为此,作者提出了BLIP: Bootstrapping Language Image Pre-training for unified vision-language understanding and generation。BLIP是一个新的VLP(Vision-Language Pre-training)框架,其能够更加广泛的支持下游的任务。其从模型和数据视角做出了两个贡献
编码器-解码器的多模态混合(MED) \text{(MED)}(MED):一个用于高效多任务预训练和灵活迁移的新模型架构。一个MED \text{MED}MED可以是单模态的编码器,也可以是基于图像的文本编码器/解码器。模型通过三个vision-language目标函数进行预训练:image-text对比学习、image-text匹配和图像条件语言建模。
CapFilt(Captioning and Filtering) \text{CapFilt(Captioning and Filtering)}CapFilt(Captioning and Filtering):用于从噪音image-text对中学习的新数据集boostrapping方法。微调预训练MED \text{MED}MED为两个模块:一个用于为给定图像生成合成captions的captioner,以及一个从原始web文本和合成文本移除噪音captions的filter。
作者进行了大量的实验和分析,做出了如下

BLIP是一个新型的视觉语言预训练框架,旨在克服现有模型架构和数据集噪音的问题。它提出了一种多模态混合编码器-解码器(MED)架构,能有效支持多任务预训练,并通过CapFilt方法从嘈杂的image-text对中学习。实验表明,这种方法在image-text检索、captioning、问答等任务上实现了最优性能,并在video-language任务中实现了zero-shot state-of-the-art。
最低0.47元/天 解锁文章
3769

被折叠的 条评论
为什么被折叠?



