【多模态大模型】 BLIP-2 in ICML 2023

最新推荐文章于 2025-10-11 17:31:59 发布

原创

最新推荐文章于 2025-10-11 17:31:59 发布 · 1.5k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#多模态 #大模型 #Q-Former

一、引言

论文： BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
作者： Salesforce Research
代码： BLIP-2
特点： 该方法分别使用冻结的图像编码器（ViT-L/14、 ViT-g/14）和大语言模型（OPT、FlanT5）进行图像特征提取和文本特征提取与生成；提出Q-Former连接图像编码器和大语言模型；提出两阶段预训练策略分别提升模型特征学习和视觉到语言的生成学习能力。

⚠️ 在学习该方法前，建议补充ViT、BERT、ALBEF、BLIP的相关知识。

二、详情

BLIP-2的整体结构图如下：

可见，它的图像编码器和大语言模型都是冻结的，作为一种预训练方法Q-Former起着至关重要的作用。左右两边则分别是预训练的两个阶段，第一个阶段致力于提升模型表征学习能力使查询token与文本token能够对齐并提取出与文本最相关的视觉特征，第二个阶段致力于提升模型视觉到语言的生成学习能力，使查询token能够被大语言模型理解。

2.1 Q-Former

Q-Former的整体结构图如下：

可见，它包括两个N层的transformer结构（N=12），分别为图像transformer和文本transformer。

图像transformer和文本transformer的自注意力和FFN都由BERT

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Fulin_Gao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。