《MmAP : Multi-Modal Alignment Prompt for Cross-Domain Multi-Task Learning》中文校对版

系列论文研读目录



摘要

多任务学习(Multi-Task Learning,MTL)是为了同时训练多个相互关联的任务,从而提高单个任务的性能而设计的。典型地,多任务网络结构由共享主干和特定任务解码器组成。然而,解码器的复杂度随着任务的数量而增加.为了解决这一问题,我们集成了无解码器的视觉语言模型CLIP,该模型具有鲁棒的zero-shot泛化能力。最近,参数有效的迁移学习方法伴随CLIP已被广泛地探索,以适应下游任务,其中提示调整显示了强大的潜力。然而,这些方法仅对单个模态(文本或视觉)进行微调,破坏了CLIP的模态结构。本文首先提出了一种多模态对齐提示(MmAP)算法,用于CLIP中的文本和视觉模态的对齐。在MmAP的基础上,我们开发了一个创新的多任务提示学习框架。一方面,为了最大化相似度较高的任务之间的互补性,我们采用了一种梯度驱动的任务分组方法,将任务划分为若干个互不相交的组,并为每个组分配一个组共享的MmAP。另一方面,为了保持每个任务的独特特征,我们为每个任务分配任务特定的MmAP。在两个大型多任务学习数据集上的综合实验表明,与完全微调相比,我们的方法在仅利用了约0.09%的可训练参数的情况下,获得了显著的性能改善。

1 引言

  1. 多任务学习(MTL)已经成为深度学习中的一种有效方法,它允许在统一的网络架构中联合训练多个相关任务,从而与单任务学习(STL)相比增强了模型性能。MTL的核心在于学习任务共享表征和任务特定表征。通过利用跨任务的共享表示和知识,MTL增强了泛化并减轻了过拟合。利用特定的表示允许MTL保留每个任务的独特特征。此外,训练多个任务的统一模型通常比训练几个单任务模型更有参数效率。因此,MTL在各个领域都引起了相当大的兴趣,包括计算机视觉(Shen et al. 2021; Ye and Xu 2023; Xin et al. 2023),自然语言处理(He et al. 2022)等。
  2. 在这项工作中,我们主要关注视觉多任务学习。先前的研究主要集中在多任务模型训练框架的设计上,包括基于编码器的方法(Gao et al. 2019)和基于解码器的方法(Xu,Yang,and Zhang 2023)。然而,随着视觉预训练模型(例如,ViT(Dosovitskiy et al. 2021),SwinTransformer(Liu et al. 2021)),直接微调这些模型用于下游多任务,导致性能大幅提升,并已成为多任务学习的主流方法(Liu et al. 2022)。在这种微调范式中,仍然有必要为每个任务建立一个不同的解码器,可训练参数线性增加。
  3. 为了解决上述问题,我们结合了预训练的视觉语言模型CLIP(拉德福等人,2021),并认为它是为视觉多任务学习量身定制的。一方面,CLIP被训练为使用网络规模的数据(例如,4亿个文本图像对),赋予它强大的zero-shot传输到视觉下游任务的能力。另一方面,CLIP的体系结构提供了明显的优势。它包括一个文本编码器和一个图像编码器,无需为每个任务建立额外的解码器结构。因此,我们选择调整CLIP来解决视觉多任务。
  4. 在传统的预训练微调范例之后,整个CLIP参数(150 M)将需要更新,这提出了关于计算和存储费用的挑战。最近,许多研究(Zaken,Goldberg和Ravfogel 2022; Jia et al. 2022 b; Gao et al. 2021; Zhou et al. 2022)引入了参数有效的迁移学习技术,以实现可训练参数和下游任务性能之间的最佳平衡。尽管如此,这些现有的方法主要集中在预先训练的视觉模型或语言模型,其适用于更复杂的视觉语言模型仍然不确定。此外,这些方法往往强调单任务适应,而多任务适应仍然是一个挑战。
  5. 首先,我们首先对现有成功的参数高效迁移学习方法在应用于CLIP进行视觉多任务学习时的性能进行了彻底的检查,如图1所示。通过我们广泛的研究,我们发现提示微调方法VPT-MT(Jia et al. 2022 b),CoOp-MT(Zhou et al. 2022)和MaPLe-MT(Khattak et al. 2023)比BitFit(Zaken,Goldberg和Ravfogel 2022)和Adapter(Gao et al. 2021)更合适。这可能归因于BitFit和Adapter更新模型参数并破坏CLIP的原始结构完整性。相反,提示调优方法只修改输入嵌入(文本或图像),如图2所示。此外,我们观察到MaPLe-MT优于VPT-MT和CoOp-MT,强调了同时调整两种模式的优势。
    在这里插入图片描述
    在这里插入图片描述(a)文本提示调整(Zhou et al. 2022),(B)视觉提示调整(Jia et al. 2022 B),(c)多模态提示学习(Khattak et al. 2023)和(d)我们的多模态对齐提示调整。火苗图标表示可训练参数,雪花图标表示冻结参数,[class]表示克罗内克积,[class]表示类别名称。
  6. 随后,基于我们的观察结果,我们提出了一种新的针对CLIP的多模式对齐
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值