《MaPLe: Multi-modal Prompt Learning》中文校对版

系列论文研读目录



题目:《Maple:多模态提示学习》

摘要

预训练的视觉语言(V-L)模型,如CLIP,已经显示出对下游任务的出色泛化能力。然而,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能良好地执行。受自然语言处理(NLP)文献的启发,最近的CLIP适应方法将提示作为文本输入来学习,以微调CLIP用于下游任务。我们注意到,使用提示来适应CLIP(语言或视觉)的单个分支中的表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中,我们提出了多模态提示学习(Maple)的视觉和语言分支,以提高视觉和语言表征之间的一致性。我们的设计促进了视觉语言提示之间的强耦合,以确保相互协同作用,并阻止学习独立的单峰解决方案。此外,我们在不同的早期阶段学习单独的提示,以逐步对阶段特征关系进行建模,从而实现丰富的上下文学习。我们评估了我们的方法在三个代表性的任务上的有效性:推广到新的类,新的目标数据集和看不见的域转移。与最先进的方法Co-CoOp相比,Maple表现出良好的性能,在11个不同的图像识别数据集上,在新类别上实现了3.45%的平均绝对增益,在整体谐波平均值上实现了2.72%的平均绝对增益。我们的代码和预培训模型可在https://github.com/muzairkhattak/multimodalprompt-learning上获得。

1.简介

  1. 基础视觉语言(V-L)模型,如CLIP(对比图像预训练)[32]已经显示出对下游任务的出色泛化能力。这种模型经过训练,以在网络规模的数据上对齐语言和视觉模态,例如,CLIP中有4亿个文本图像对。由于自然语言提供了丰富的监督,这些模型可以推理开放词汇的视觉概念。在推断期间,使用手工设计的文本提示,比如’‘a photo of a '作为查询文本的编码器。将输出文本嵌入与来自图像编码器的视觉嵌入进行匹配以预测输出类。设计高质量的上下文提示已被证明可增强CLIP和其他V-L模型的性能[17,42]。
  2. 尽管CLIP在推广新概念方面有效,但其庞大的规模和缺乏的训练数据(例如,few-shot设置)使得不可能为下游任务微调完整模型。这种微调也可能忘记在大规模预训练阶段获得的有用知识,并可能造成过度适应下游任务的风险。为了解决上述挑战,现有的工作提出了语言提示学习以避免手动调整提示模板,并提供了一种机制来在保持原始权重冻结的同时适应模型[14,25,29,48,49]。受自然语言处理(NLP)的启发,这些方法仅探索CLIP中文本编码器的即时学习(图1:a),而自适应选择以及CLIP中同样重要的图像编码器仍然是文献中未探索的主题。
  3. 我们的动机来自CLIP的多模态特性,其中文本和图像编码器共存,并且都有助于正确对齐V-L模态。我们认为,任何提示技术应该完全适应模型,因此,学习提示只为文本编码器,在CLIP中,是不足以模拟图像编码器所需的适应的。为此,我们开始在提示方法中实现完整性,并提出多模态提示学习(MaPLe)来充分微调文本和图像编码器表示,以便在下游任务中实现最佳对齐(图1:B)。我们在三个关键的代表性设置上进行了广泛的实验,包括基础到新的泛化,跨数据集评估和域泛化,证明了Maple的实力。在基于新的泛化方面,我们提出的Maple在11个不同的图像识别数据集上优于现有的快速学习方法(图1:c),并在最先进的方法Co-CoOp上实现了3.45%的绝对平均增益和2.72%的谐波平均值[48]。此外,MaPLe在跨数据集传输和域泛化设置中表现出良好的泛化能力和鲁棒性,与现有方法相比得到了一致的改进。由于其流线型的架构设计,与Co-CoOp相比,Maple在训练和推理过程中表现出更高的效率,而没有太多的开销,Co-CoOp由于其图像实例条件设计而缺乏效率。总之,这项工作的主要贡献包括:
    (1)我们建议在CLIP中采用多模态提示学习,以使其视觉语言表征更好地保持一致。据我们所知,这是第一个用于微调CLIP的多模态提示方法.
    (2)为了将在文本和图像编码器中学习到的提示联系起来,我们提出了一个耦合函数,以明确地将视觉提示条件化到它们的语言对应物上。它是两种模式之间的桥梁,允许梯度的相互传播,以促进协同作用。
    (3)我们的多模态提示是在视觉和语言分支的多个Transformer模块中学习的,以逐步学习两种模态的协同行为。这种深度提示策略允许独立地对上下文关系建模,从而提供更大的灵活性来对齐视觉-语言表示。
    在这里插入图片描述Maple与标准快速学习方法的比较。(a)现有的方法采用单模态提示技术来微调CLIP表示,因为提示仅在CLIP的单个分支(语言或视觉)中学习。(b)Maple引入了分支感知的分层提示,同时适应语言和视觉分支,以提高泛化能力。©Maple在11个不同的图像识别数据集上超越了最先进的方法,用于新的类泛化任务。

2.相关工作

视觉语言模型:

语言监督与自然图像的结合使用在计算机视觉领域具有重要意义。与仅使用图像监督学习的模型相比,这些视觉语言(V-L)模型编码了丰富的多模态表示。最近,像CLIP [32],ALIGN [15],LiT [45],FILIP [41]和佛罗伦萨[43]这样的V-L模型已经在广泛的任务中表现出卓越的性能,包括few-shot和zero-shot视觉识别。这些模型使用来自网络的大量可用数据,以自我监督的方式学习联合图像语言表示。例如,CLIP和ALIGN分别使用10400 M和101 B图像-文本对来训练多模态网络。尽管这些预先训练的V-L模型学习了广义表示,但有效地使其适应下游任务仍然是一个具有挑战性的问题。许多工作已经证明了通过使用定制的方法来适应V-L模型以用于few-shot图像识别[9,19,46],对象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值