多模态模型 BLIP 和BLIP-2在模型结构、训练方式、数据组成的异同分析

BLIP

BLIP-2

BLIP 和 BLIP2 的模型结构与训练方式对比

BLIP 和 BLIP2 是两种用于视觉语言任务的预训练模型,它们在模型结构和训练方式上有显著的区别和联系。以下是对两者的详细对比分析:

1. 模型结构对比

BLIP 的模型结构
  • 核心架构:多模态编码器-解码器混合(MED),包含以下三个功能模块:
    1. 单模态编码器:分别编码图像和文本,通过图像-文本对比损失(ITC)对齐视觉和语言表示。
    2. 基于图像的文本编码器:在文本编码器中插入交叉注意力层,通过图像-文本匹配损失(ITM)学习图像和文本的细粒度对齐。
    3. 基于图像的文本解码器:将双向自注意力层替换为因果自注意力层,通过语言建模损失(LM)生成文本描述。
  • 特点
    • 统一的视觉语言模型,支持多种任务(理解与生成)。
    • 通过共享参数实现多任务学习。
BLIP2 的模型结构
  • 核心架构:引入 Querying Transformer (Q-Former) 作为桥接模块,连接冻结的图像编码器和冻结的大语言模型(LLM)。
    1. Q-Former:包含两个Transformer子模块:
      • 图像Transformer:与冻结的图像编码器交互,提取视觉特征。
      • 文本Transformer:作为文本编码器和解码器,支持文本生成和理解。
    2. 冻结的图像编码器:如 ViT-L/14 或 ViT-g/14,用于提取图像特征。
    3. 冻结的LLM:如 OPT 或 FlanT5,用于生成语言。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值