2022: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and

BLIP是新型VLP框架,通过引导字幕和CapFilt技术,有效利用有噪声的web数据,实现视觉-语言理解和生成任务的性能提升。模型结构为多模态编码-解码器混合,适用于多种下游任务,且在图像-文本检索、图像标注、VQA等任务上达到SOTA。CapFilt通过字幕器和过滤器提高数据质量,多样化的字幕有助于性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

        大多现有的视觉语言预训练好的模型只善于基于理解的任务或基于生成的任务,而且,性能的提高很大程度上是通过扩大来自web上收集的有噪声的图像-文本对的数据集,这是一个次优的监督来源。本文,提出BLIP,一种新的VLP框架,可以灵活地转换到视觉-语言理解和生成任务BLIP通过引导字幕,有效地利用了有噪声的web数据,其中字幕器生成合成字幕,过滤器去除有噪声的字幕。我们在广泛的视觉语言任务上实现了最先进的结果,如图像-文本检索、图像标注和VQA。BLIP能以零样本的方式直接转移到视频-语言任务上,也论证了很强的泛化能力

一、介绍

       现有的视觉-语言预训练任务有以下两种主要限制:(1)模型角度:大多方法要么采用基于编码器的模型或基于编码-解码器的模型,然而,基于编码器的模型很难直接转移到文本生成任务上(如图像标注),而编码-解码器模型尚未成功地用于图像-文本检索任务。(2)数据角度:大多最新的方法CLIP、ALBEF、SimVLM在来自web的图像-文本对上预训练,通过扩大数据集获得性能增益,而我们的论文表明,有噪声的web文本对视觉语言学习是次优的。

        我们提出BLIP:引导语言-图像预训练为统一的视觉语言理解和生成。BLIP是一个新的VLP框架,它支持比现有方法更广泛的下游任务。它分别从模型和数据角度介绍了两个贡献

        (a)编码器-解码器(MED)的多模态混合结构:一种为有效的多任务预训练和灵活的转移学习的新的模型架构。MED可以作为单模态编码器、或一个图像接地的文本编码器、或一个图像接地的文本解码器。模型与三个视觉-语言目标共同预训练:图像-文本对比学习、图像-文本匹配、和以图像为条件的语言建模

        (b)标注和过滤(CapFilt):一种新的从有噪声的图像-文本对中学习的数据集引导方法。我们将预训练好的MED微调为两个模块:一个字幕器用于生成给定web图像的合成字幕;另一个过滤器用于从原始的web文本和合成文本中删除有噪声的字幕。

        我们进行了广泛的实验和分析,并得出以下关键的观察:(1)我们表明了字幕器和过滤器一起工作,通过引导字幕在各种下游任务上实现实质性性能改进,我们还发现,更多样化的字幕会产生更大的收益。(2)BLIP在各种视觉-语言任务上实现了最先进的性能,包括图像-文本检索、图像标注、视觉问答、视觉推理和视觉对话。当直接将我们的模型转移到两个视频语言任务:文本到视频检索和视频QA时,我们也实现了最先进的零样本性能。

二、相关工作

2.1 视觉-语言预训练

        视觉-语言预训练旨在通过在大规模图像-文本对上对模型机型预训练来提高下游视觉和语言任务的性能。由于获取人工注释的文本的费用过高,大多方法使用从web上爬取的图像和替代文本对,尽管使用了简单的基于规则的过滤器,噪声仍然在web文本中普遍存在。然而,噪声的负面影响在很大程度上都

### 预训练的视觉与语言Transformer模型概述 预训练的视觉与语言Transformer模型旨在通过联合建模图像和文本数据,提升跨模态任务的表现。这类模型通常利用大规模多模态数据进行无监督或弱监督预训练,并在下游任务中展现出卓越性能,例如视觉问答(VQA)、图像字幕生成(Image Captioning)以及图文检索等。 #### ALIGN ALIGN是一种基于对比学习框架的视觉与语言预训练模型[^1]。它通过最大化正样本对之间的相似度并最小化负样本对之间的相似度来优化表示学习。这种设计使得ALIGN能够在多种跨模态任务中取得优异表现。 #### CLIP (Contrastive Language-Image Pre-training) CLIP采用了一种双塔架构,分别编码图像和文本特征,并通过对比损失函数进行联合训练。这种方法不仅提高了模型泛化能力,而且显著降低了对标注数据的需求。 #### LXMERT (Learning Cross-modality Encoder Representations from Transformers) LXMERT专注于构建强大的跨模态交互机制。其核心思想在于将独立的视觉和语言编码器结合起来,形成统一的交叉注意力模块。这一特性使LXMERT特别适合处理复杂的视觉推理问题。 #### BLIP (Bootstrapping Language-Image Pre-training) BLIP引入了一个新颖的自举策略,即交替更新文本到图像和图像到文本两个方向上的生成模型参数。这种方式有效缓解了传统单向生成模式中存在的偏差累积现象。 #### ViLBERT (Vision-and-Language BERT) ViLBERT扩展了经典的BERT结构至多模态场景下,支持同时接收图片区域特征及相应描述作为输入。通过对齐不同粒度的信息单元,ViLBERT实现了更加精细的语义理解水平。 #### VisualBERT VisualBERT继承了原始BERT的设计理念,但在具体实现上增加了对于对象检测框位置信息的支持。这样的改动有助于捕捉更多关于物体间关系的知识点。 #### OSCAR OSCAR结合了目标检测技术和掩码语言建模技术,从而增强了对细粒度概念的理解能力和表达精度。 #### ViLT (Vision-and-Language Transformer) 不同于其他依赖外部工具提取高级视觉表征的方法,ViLT直接操作像素级数据完成端到端训练流程。如此做法既简化了整体管道又提升了计算效率。 #### OFA OFA是一个多功能的一体化解方案,能够无缝切换于多项异构型任务之间执行高效转换运算。凭借出色的迁移学习效果,OFA成为当前领域内的标杆之作之一。 #### ALBEF ALBEF提出了全新的局部全局一致性约束条件,进一步加强了两种媒介形式间的联系紧密程度。借助这项创新举措,ALBEF成功突破以往同类产品存在的瓶颈限制。 ```python import torch from transformers import AutoTokenizer, AutoModelForPreTraining tokenizer = AutoTokenizer.from_pretrained("model_name") model = AutoModelForPreTraining.from_pretrained("model_name") text = "An image of a cat" image_features = ... # Extracted features from an image processing library inputs = tokenizer(text, return_tensors="pt", max_length=512) outputs = model(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], pixel_values=image_features) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值