《COMMA: Co-articulated Multi-Modal Learning》中文校对版

系列论文研读目录



摘要

经过预训练的大规模视觉语言模型(如CLIP)已经在一系列下游任务中表现出了出色的泛化能力。但是,它们对输入文本提示的变化很敏感,并且需要选择提示模板以获得满意的性能。近来,已经提出了各种方法来动态地学习作为文本输入的提示,以避免在微调过程中对人工手工制作的提示工程的要求。我们注意到这些方法在两个方面是次优的。首先,这些方法中的视觉和语言分支的提示通常是分离的或单向相关的。因此,两个分支的提示不完全相关,并且可能不提供足够的指导来对齐两个分支的表示。其次,我们观察到,与CLIP相比,大多数先前的方法通常在可见类上实现更好的性能,但在不可见类上导致性能退化。这是因为在预训练阶段学到的基本通用知识在微调过程中被部分遗忘了。基于此,本文提出了一种联合连接的多模态学习算法(COMMA)。特别地,我们的方法考虑来自两个分支的提示以生成提示来增强两个分支的表示对准。此外,为了减少对基本知识的遗忘,我们在Transformer层后期的预训练CLIP中最小化了学习到的提示与手工嵌入的提示之间的特征差异。我们在三个典型的任务上评估了我们的方法,这三个任务是泛化到新的类、新的目标数据集和不可见的域转移。实验结果证明了该方法的优越性,在所有任务上都有较好的性能提升.代码可在https://github.com/hulianyuyy/COMMA上获得

导言

  1. 具有对齐的大规模文本图像对的网络数据的增加极大地促进了基础视觉语言模型(VLM)的开发,如CLIP(拉德福等人。2021)。由于自然语言提供的监督,这些模型在一系列下游任务中表现出出色的泛化性能,并且可以推理开放词汇视觉概念(Gao et al. 2021; Fang et al. 2021; Cheng et al. 2021)。在推理过程中,一组手工制作的提示,如“[类别]的照片”被用作文本编码器的查询。输出文本嵌入与图像编码器生成的视觉嵌入相匹配,以预测输出类。
  2. 尽管CLIP在新场景中具有令人印象深刻的通用性,但其庞大的模型规模和对训练数据的要求使得在下游任务中对完整模型进行微调是不可行的。对整个模型进行微调也很容易忘记在训练阶段获得的有益知识,并过度拟合下游数据。为了解决上述限制,一系列工作(拉德福等人,2021; Jin等人,2021)致力于设计更好的手工提示,以适应下游任务。然而,手工制作的提示需要仔细的选择与密集的劳动,这也可能是最佳的描绘新的场景的特点。最近,许多方法(Shu et al. 2022; Zhou et al. 2022 a,B)提出将提示视为文本嵌入,并在微调过程中更新它们以更好地与VLM协调。该方法只更新可学习的提示信息,并固定VLMs的原始参数,大大降低了计算量。
  3. 我们认为,这些方法仍然有两个主要缺点。首先,这些方法中的视觉和语言分支的提示通常是分离的或单向相关的(视觉分支仅受文本分支的单向影响)。由于VLM的目标是更好地匹配视觉和语言分支的嵌入,因此脱节的视觉和语言提示可能会阻碍对两个分支中的输出嵌入的相关性进行建模。第二,已经观察到,相比CLIP,大多数以前的方法通常在看得到的类上能发挥好的表现,但表现出较差的泛化能力上在看不见的类。这是因为在预训练过程中获得的基本通用知识在微调过程中部分被遗忘。
  4. 为了解决上述问题,本文提出了协同多模态学习(COMMA)。特别地,为了增强两个分支中提示的相关性,我们基于两个分支中的前一个提示生成下一层的提示。在这种情况下,两个分支的提示嵌入都很好地相关,并且可以为下一层提供足够的指导来对齐两个分支的表示。此外,为了减少对大规模训练数据中获得的基本知识的遗忘,我们试图最大限度地减少学习的提示和预训练的CLIP中手工制作的提示之间的差异。在微调阶段,可以更好地保存和适应新的类的一般知识。我们对三个关键的代表性设置进行了广泛的实验,包括基础到新的泛化,跨数据集评估和域泛化,证明了COMMA的实力。特别是,在基础到新的概括上,我们的方法在10/11数据集上优于其他方法,如图1所示。此外,我们的COMMA还在跨数据集传输和域泛化设置中对所有数据集表现出出色的泛化能力,实现了一致的性能提升。由于其流线型的设计,与以前的方法相比,COMMA具有更高的训练和推理效率。
    在这里插入图片描述

相关工作

视觉语言模型

近年来,大规模图文对的出现极大地促进了视觉语言模型的发展。以前的方法通常采用基于区域(安德森等人,2018)或基于网格(Jiang等人,2020; Nguyen,Goswami和Chen 2020)的方法来建模视觉和语言之间的相关性。然而,这两种模式之间的内在联系并没有完全捕捉到这样的设计。近年来,CLIP(拉德福et al. 2021)、ALIGN(Jia et al. 2021)、FLIP(Yao et al. 2021)和BLIP(Li et al. 2022)等一系列模型被引入,以对比的方式捕捉图像和文本之间的相关性。他们通过最大化积极对的相似性并推开那些消极对来学习联合图像语言表示。在自然语言监督的帮助下,它们在广泛的下游任务中表现出令人印象深刻的性能。然而,其庞大的模型规模和训练数据的要求限制了其在资源受限的下游任务中的应用。如何更好地发挥其潜力,在这些新的概念,高效率仍然是一个具有挑战性的问题。许多工作已经证明,通过使用定制的方法来调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值