BLIP和BLIP2

BLIP通过统一图像文本理解和生成任务,采用ITC和ITM任务分离以及LM生成,有效解决了网络弱监督文本的噪声问题。其网络结构包括共享和非共享参数的VIT和自定义编码器。BLIP-2分为两阶段,旨在提高表征学习和生成能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.BLIP

BLIP的第一个共享是将图像文本理解与图像文本生成任务进行了统一,形成了多模态统一模型,模型在ITC任务上的效果也比CLIP更好。

1.1任务

ITC:就是CLIP中的图像文本对比学习任务

ITM:针对ITC任务中匹配不正确的样本,单独进行一个Image-Text二分类任务,使得模型对齐效果更好。因为来源于网络的弱监督文本存在噪声,会使得ITC阶段的监督出现一些错误,噪声举例:

这个二分类任务的目的是让图像和文本做到细节上的对齐。

LM:基于图像,用GPT的生成任务与生成对图像的自然语言理解。

1.2网络

上图中,最左侧的image encoder还是常见的VIT等操作。

右侧的三个模型的结构很相似,其中颜色相同的部分参数也是共享的,颜色不同的部分参数不是共享的:

其中ITC和ITM的text encoder前面加上了“CLS” 和 “encoder”关键字,代表他们是处理不同任务的编码。第一步都是Bert中的BI-SELF-ATTENTION。

LM的text前加了“decoder”标记,预测过程也是GPT中一个个step逐字生成。

1.3 数据

BLIP的另外一大贡献在于:解决了来源于网络的弱监督文本的噪声问题,并且对部分图片重新生产文本。

网络数据噪声举例:

上述数据处理方法描述:

(1)红色的T_{_{w}}代表互联网上有噪声的样本,绿色的T_{h_{}}代表人类标注的真实样本。

(2)基于预训练的模型用人类标注的样本进行ITC和ITM的finetune得到更准确的模型。用新老模型分别去做推理可以过滤掉一些图文不匹配的样本。

(3)用人类标注的数据去finetune第三个LM任务,可以为一些噪声样本生成匹配的Text。

2.BLIP-2

分两个阶段:

(1)第一阶段是训练一个桥接组件,将image的embedding对齐到LLM的embedding的text空间。

(2)第二阶段相当于将image作为一个prompt给LLM,让LLM生成对图像的描述。

2.1 Image Text表征学习

2.2 Image Text生成学习

### Blip2 CLIP 图像-文本模型特性差异 #### 架构设计 BLIP-2采用两阶段架构,先通过视觉编码器处理图像输入再由语言解码器生成描述[^1]。而CLIP则共享参数用于联合训练图像文本编码路径,在单个框架下实现跨模态表示学习。 #### 训练数据集规模与多样性 CLIP受益于大规模网络爬取的数据集合,这使得其能够泛化到未曾见过的任务上表现良好;相比之下,尽管BLIP系列也利用广泛的数据源,但在具体应用场景下的微调可能带来更优的结果适应性[^2]。 #### 多模态理解能力 对于复杂场景的理解方面,BLIP-2展示了更强的能力来捕捉上下文信息并给出连贯的回答,这是因为额外引入了对话历史作为条件之一参与推理过程[^3]。相反, CLIP主要专注于提供高质量的初始匹配度评估而非深入交互式的反馈机制。 ```python # 这里展示了一个简单的伪代码对比两者如何处理一张图片一段文字之间的关联 def blip2_process(image, text_history=None): visual_features = encode_image(image) if text_history is not None: context_aware_output = generate_description_with_context(visual_features, text_history) return context_aware_output else: basic_caption = decode_to_text(visual_features) return basic_caption def clip_process(image, text): joint_representation = compute_joint_embedding(image, text) similarity_score = measure_similarity(joint_representation) return {"image": image, "text": text, "similarity": similarity_score} ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值