一、引言
论文: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
作者: Salesforce Research
代码: BLIP
特点: 该方法分别使用ViT和BERT进行图像和文本特征提取;提出使用image-text contrastive learning (ITC)损失、image-text matching (ITM)损失、Language Modeling (LM)损失进行模型优化;提出Captioning and Filtering (CapFilt)生成并过滤从网络上获取的图像-文本对。
二、详情
BLIP的整体结构图如下:
可见,BLIP在结构上主要包括1个图像编码器、1个文本编码器、1个基于图像的文本编码器、1个基于图像的文本解码器;在损失上主要包括image-text contrastive learning (ITC)损失、image-text matching (ITM)损失、Language Modeling (LM)损失;此外,BLIP还提出了CapFilt处理噪声图像-文本对。
⚠️ 为了提升训练效率,减少参数量,BLIP使用了参数共享策略,上图中同颜色的模块使用同一组参数。具体参数关系如下:
- 图像编码器中所有参数独立;
- 文本编码器、基于图像的文本编码器、基于图像的文本解码器中的FFN使用同一组参数;
- 文本编码器和基于图像的文本编码器中的双向自注意力使用同一组参数;
- 基于图像的文本编码器和基于图像的文本解码器中的交叉注意力使用同一组参数;
- 基于图像的文本解码器中的因果自注意力参数独立。

最低0.47元/天 解锁文章
978

被折叠的 条评论
为什么被折叠?



