1. 视觉-语言预训练 (Vision-Language Pre-training,VLP)
预训练模型,生成图像标注,视觉问答
- 模型角度,基于编码器-解码器的模型在「图文检索」task中尚未成功实践
- 数据角度,SOTA:CLIP、SimVLM 文本噪声问题严重
本文提出 BLIP(Bootstrapping Language-Image Pre-training),用于统一视觉 - 语言理解和生成任务,通过自展标注(bootstrapping the captions),可以有效地利用带有噪声的 web 数据,其中标注器(captioner)生成标注,过滤器(filter)去除有噪声的标注。
论文地址:https://arxiv.org/pdf/2201.12086.pdf
代码地址:https://github.com/salesforce/BLIP
试玩地址: