精读论文:Learning multiple visual domains with residual adapters(附翻译)

本文探讨了如何使用残差适配器模块来实现神经网络在多个视觉域之间的参数共享,解决了多领域学习中的遗忘问题。研究中提出了视觉十项全能挑战,评估模型在不同视觉任务中的性能。通过实验,证明了残差适配器模块在减少参数数量的同时提高了模型在不同领域间的适应性和泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Learning multiple visual domains with residual adapters

这篇文章可看的我太秃头了,各种查阅资料,还问了学语音的小伙伴什么是filter bank,用了四天时间反反复复看了3遍,应该算是马马虎虎看懂了,然后就发现星期四在组会上和大家分享的简直是天方夜谭了哈哈哈哈哈哈,记录一下感人时刻。

一、总结

1. multi domain

multi domain:
  本文的multi domain是指这些domain间的内容、风格都不一致,和以往所说的内容一致、风格不一致的multi domain不同。对于不同的domain(task)而言都有自己的训练模型,但是本文提出的方法可以使得这些模型间可以共享绝大多数参数,如图所示。本文的目的就是训练好域不可知参数,然后根据不同的domain训练域特定参数,每个domain间的域特定参数不同,最终测试的时候会用自己的域特定参数。
在这里插入图片描述

2. 参数化filter bank

卷积层分解:
  卷积层 ( T ∗ h ∗ h ∗ C ) (T*h*h*C) (ThhC)分解:分解成Domain agnostic参数和Domain specific参数,同样如果给定Domain agnostic参数,可以根据Domain specific参数确定该domain的全部参数。
在这里插入图片描述
  对于一个卷积层而言 ( T ∗ h ∗ h ∗ C ) (T*h*h*C) ThhC,Domain agnostic参数时是K个卷积核 h ∗ h ∗ C h*h*C hhC,Domain specific参数是K个卷积核 h ∗ h ∗ C h*h*C hhC的T种线性组合。参数化filter bank等同于引入了一个中间卷积层。作者解释说filter是 domain-agnostic parameter,而α则是domain-specific parameter,从而基于同一组filter,可以对于不同的domain有着对应的表达。
Domain agnostic参数: K个卷积核 h ∗ h ∗ C h*h*C hhC
Domain specific参数: T个卷积核 1 ∗ 1 ∗ K 1*1*K 11K
在这里插入图片描述

3. 残差适配器

residual adapter:
在这里插入图片描述
  w参数通过large domain ImageNet预训练,α参数通过特定任务微调,网络为ResNet28,包含3个blocks,每个block包含4个residual units,residual units如上图所示。在Batch norm的使用上,在rescaling和shift操作上也加上了adaptive module,而且,这两个部分是dataset-dependent,所以也在domain Adaptation上起到一定作用。

4. 结果部分

结果:
在这里插入图片描述
  引入了S的定义,S在十项全能偏爱总体上表现良好的方法,强调其一致性,而不仅仅是平均准确性。例如Res. adapt. model ,该模型(在所有域中均采用单一衰减系数训练)在平均准确度(73.88%)方面表现良好,其十项全能得分(2118)相对较低,因为该模型在DTD和Flowers上的表现较差。 这也表明,一旦正确配置了权重衰减,我们的模型仅使用单个ResNet容量的2倍即可获得优于所有基线的出色性能(2643点)。
S定义如下,baseline为finetune,为250点的原因是 E d m a x = 2 E d E_d^{max}=2E_d Edmax=2Ed,此时的 E d E_d Ed指的是finetune的。
在这里插入图片描述

二、翻译

0. 摘要

abstract:
  人们越来越需要学习很好地解决许多不同类型的问题和数据的表示形式。 在本文中,我们特别着眼于学习单一视觉表示的任务,该视觉表示可以成功地用于分析非常类型的图像,从狗的品种到停车标志和数字。 受最近关于预测另一个参数的学习网络的研究的启发,我们开发了一种可调整的深度网络体系结构,该体系结构可通过适配器残差模块即时转向各种视觉域。 我们的方法在保持甚至提高特定于域的表示的准确性的同时,实现了高度的参数共享。 我们还介绍了“视觉十项全能挑战赛”,这个benchmark旨在评估同时捕获十个不同的视觉域并衡量其表现能力。

1. 引言

introduction:
  尽管机器学习的研究通常旨在提高特定任务的算法性能,但人们对开发可在单个模型中解决各种不同问题的方法的兴趣日益浓厚。就感知而言,这一挑战有两个不同方面。 第一个是从给定的图像中提取各种信息,例如图像级别的标签,语义段,对象边界框,对象轮廓,遮挡边界,消失点等。第二个方面是同时建模许多不同的视觉域, 例如Internet图片,字符,标志符号,动物品种,草图,星系,浮游生物等(图1)。
在这里插入图片描述
  视觉十项全能:从不同的视觉领域同时学习不同任务的深度架构。 我们尝试了十种代表性的方法:(a)飞机,(b)CIFAR-100,(c)戴姆勒行人,(d)可描述的纹理,(e)德国交通标志,(f)ILSVRC(ImageNet)2012,(g)VGG-Flowers,(h)OmniGlot,(i)SVHN,(j)UCF101动态图像。
  在这项工作中,我们探索了第二个挑战,并探讨了如何使用深度学习技术来学习通用表示,即特征提取器可以在几个不同图像域中都表现良好。 我们将此问题称为多域学习,以将其与更通用的多任务学习区分开来。
多领域学习又包含两个子挑战。

  • (i)研究一个在许多域都表现得很好的算法。 如果按顺序学习域,但这不是必需的,则这让人联想到域适应。 但是,有两个重要区别。首先,在标准域适应中,图像的内容(例如“电话”)保持不变,只有图像的样式发生变化(例如,现实生活与画廊图像)。相反,在我们的案例中,域转移会同时改变样式和内容。
  • (ii)其次,困难不仅在于使模型从一个领域适应另一个领域,而且要做到这一点,同时还要确保模型在原始领域仍然表现良好,即要学习而不忘记。

多域学习的第二个挑战,也是我们本文主要关注的问题,是构造可以紧凑地表示所有域的模型。 直观地说,即使不同域中的图像看起来可能完全不同(例如,字形与猫形),低级和中级视觉图元仍可能在很大程度上共享。
  域之间共享知识应该允许学习紧凑的多价表示形式。 只要在域之间存在足够的协同作用,多价表示甚至可能比在每个域上单独训练的模型更好(对于给定数量的训练数据)。
  本文的主要贡献(第3节)是介绍一种用于多域学习的多价神经网络体系结构。关键思想是动态配置深度神经网络,以根据需要在不同的域上工作。我们的结构基于一种learning-to-learn方法,该方法显示了如何可以从另一个网络预测该深度网络的参数。我们证明这些公式等同于将卷积层的自适应参数打包添加到网络中。生成的参数网络中的各层要么是领域无关的(因此是在各个领域之间共享的),要么是领域特定的(因此是参数化的)。 特定域的层根据输入图像的真实域或者根据从辅助网络获得的估计值而更改。 在后一种配置中,我们的体系结构类似于learnet。
  基于这样的一般观察,我们特别介绍了残差适配器模块,并使用它来参数化的标准残差网络体系结构。 适配器包含一小部分模型参数(小于10%),从而可以在域之间进行高度的参数共享。 文献31中同时提出了类似的架构,这也导致了有序学习新域而又不会忘记的可能性。 但是,我们还显示了剩余适配器模块的特定优势:能够根据目标数据集的大小来调整适应性。
  我们提出的体系结构已根据经验进行了全面评估(第5节)。 为此,我们的第二个贡献是引入了视觉十项全能挑战赛,这是图像识别中多域学习的新基准。 挑战在于如何在从ImageNet和SVHN到动作分类和可描述的纹理识别的十个非常不同的视觉分类问题上同时出色地表现。 评估标准为在所有领域同时表现优于强基准的模型。

2. 相关工作

related work:
  我们的工作涉及多任务学习,不忘学习,领域适应和其他领域。 但是,我们的多域设置在方式上有所不同,使大多数现有方法不适用于我们的问题。
  多任务学习(MTL): 着眼于开发能够解决不同任务的模型,例如检测对象和分割图像,同时在它们之间共享信息和进行计算。 该范例的早期示例集中于内核方法和深度神经网络(DNN)模型。在DNN中,一种标准方法是共享网络的早期层,并通过反向传播共同训练任务。 Caruana表明,在任务之间共享网络参数是有益的,也是一种正则化形式,这对学习的表示形式施加了额外的约束,从而对其进行了改进。
  DNN中的MTL已应用于各种问题,从自然语言处理,语音识别到计算机视觉。Collobert等表明,半监督学习和多任务学习可以在DNN模型中组合以解决几种语言处理预测任务,例如词性标签,块,命名实体标签和语义角色。黄等提出了一种共享的多语言DNN,它可以共享多种语言中的隐藏层。 刘等结合了多域分类和信息检索,以使用DNN对Web搜索进行排名。 据报道,多任务DNN模型还可以提高计算机视觉问题的性能,例如目标跟踪,面部标志检测,目标和零件检测,低级和高级结合的视觉任务。 这些作品的主要重点是在同一视觉域中学习各种任务。 相比之下,我们的论文着重于学习来自不同领域的表示。
  我们的研究与最近的[5]论文有关,该论文研究了不同域结合的“大小”,根据学习模型所需的容量来测量。作者提出通过在整个体系结构中调整批归一化和实例归一化层中的某些参数来吸收不同域到一个神经网络中去。我们表明,我们的残差适配器模块,其中包括后者作为一个特例,可以带来更好的结果。
  终身学习: MTL的一个特别重要的方面是顺序学习多个任务的能力,如Never Ending Learning和Life-long Learning一样。实际上,顺序学习通常会因忘记较旧的任务,这种现象被恰当地称为“灾难性的遗忘”。终身学习的最新工作试图以两种方式解决遗忘问题。 第一个是冻结旧任务的网络参数,并通过添加额外的参数来学习新任务。 第二个目标是保留有关旧任务的知识,通过保留原始网络对新任务的响应,或通过使新任务的网络参数与原始任务相近的方法。我们的方法可以被视为这两种方法的混合,因为它可以用来精确保留先前任务的知识,同时为新任务添加少量额外参数。
  迁移学习: 人们希望最大化模型在目标域上的性能。 在这种情况下,顺序学习可以用作初始化的一种形式。 这在视觉识别中非常常见,在视觉识别中,大多数DNN在ImageNet数据集上初始化,然后在目标域和任务上进行微调。 但是请注意,这通常会导致忘记原始域,我们在实验中证实了这一事实。
  域适应: 当顺序学习域时,我们的工作可能与域适应有关。在域适应方面有大量文献,包括基于最小化领域差异的思想在深度学习方面的最新贡献。 Long等提出了一种用于域自适应的深度网络体系结构,该体系结构可以从源域中的标记数据和目标域中的未标记数据共同学习自适应分类器和可传递特征。 我们的工作有两个重要区别:首先,在这些情况下,不同的域包含相同的对象,只是视觉样式会发生变化(例如,网络摄像头与DSLR),而在我们的情况下,对象本身会发生变化。 其次,领域适应是转移学习的一种形式,并且,后者是与最大化目标域的性能有关的,而与潜在的遗忘无关。

3. 方法

method:
  我们的主要目标是开发可以在多域环境下正常工作的神经网络体系结构。 诸如残差网络(ResNet)之类的现代神经网络已知具有非常高的容量,因此可以从各种数据源中学习。 此外,即使域看起来完全不同,它们仍可能共享大量的低级和中级视觉模式。 尽管如此,我们在实验(第5节)中表明,直接从多个域学习ResNet(或类似模型)可能仍无法很好地完成。
  为了解决这个问题,我们考虑一个紧凑的神经网络参数族 ϕ α : X → V \phi_\alpha:X\rightarrow V ϕα:XV,由参数 α \alpha α索引。具体来说, X ⊂ R H × W × 3 X\subset R^{H\times W\times 3} XRH×W×3是RGB图片的空间, V ⊂ R H v × W v × C v V\subset R^{H_v\times W_v\times C_v} VRHv×Wv×Cv是特征张量的空间。然后,标准ResNet模型除最后一个分类层外,都可以获取 ϕ α \phi_\alpha ϕα。参数化特征提取器 ϕ α \phi_\alpha ϕα可以用来构建每个域d的预测值 Φ d = ψ d ∘ ϕ α d \Phi_d=\psi_d\circ \phi_{\alpha_d} Φd=ψdϕ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值