发表时间:PMLR 2023
论文链接:https://proceedings.mlr.press/v202/li23q/li23q.pdf
作者单位:Salesforce Research
Motivation:由于大规模模型的端到端训练,视觉和语言预训练的成本变得越来越令人望而却步。
解决方法:本文提出了 BLIP-2,这是一种通用且高效的预训练策略,可以从现成的冻结的预训练图像编码器和冻结的大型语言模型引导视觉语言预训练。
我们使用两阶段预训练的 Q-Former 弥合模态差距:表示学习阶段和生成学习阶段。
第一阶段从冻结的图像编码器引导视觉语言表示学习。第二阶段从冻结的语言模型引导视觉语言生成学习。
实现方式:在第一个预训练阶段(表示学习阶段),我们执行视觉语言表示学习,它强制 Q-Former 学习与文本最相关的视觉表示。
我们创建了一组可学习的查询嵌入(learned queries)作为图像转换器的输入。查询通过自注意力层相互交互,并通过交叉注意力层(插入所有其他变压器块)与冻结图像特征交互。文本的self-attention与learned queries的self-attention是权值共享的,所以能让learned queries与text进行交互。

最低0.47元/天 解锁文章
683

被折叠的 条评论
为什么被折叠?



