翻译“Learning Transferable Features with Deep Adaptation Networks”

本文提出了一种名为深度适应网络(DAN)的新型深度学习架构,旨在通过减少域差异性来增强深度神经网络在特定任务层的特征迁移能力。DAN利用多核最大均值差异(MK-MMD)在重生希尔伯特空间中进行嵌入匹配,优化特征的可迁移性。实验表明,DAN在标准域适应基准数据集上实现了最先进的图像分类性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用深度适应网络学习可迁移特征

摘  要:最近的研究表明深度神经网络可以学习可迁移特征,这些特征用于域适应时在新的任务上表现出很好的泛化能力。然而由于深度特征随着网络层数的增加由一般到特殊转变,特征的可迁移能力在网络高层急剧下降,极大地增加了域之间的差异性。因此减少不同数据集间的偏差,同时增加任务特征层的可迁移能力是非常重要的。在本文中,我们提出了一个新的深度适应网络(DAN)架构,把深度卷积神经网络推广到域适应场景。在DAN,所有特定任务层的高层表达被嵌入到一个重生希尔伯特空间,在这里不同域分布的嵌入平均可以被显式地匹配。通过使用一个最优多核选择方法用于嵌入平均匹配,域之间的差异性也进一步被减少。DAN可以学到有统计上保证的可迁移特征,而且是线性尺度变换,通过对核嵌入的无偏估计。大量的实证表明提出的这个架构得到了最先进的图像分类误差在标准域适应基准数据集上。

1.介绍

只有有限训练样本的有监督机器学习泛化误差非常大。然而对于多种多样的应用领域手工标注大量的样本需要付出的代价是非常高的。因此,建立有效的算法来减少标注花费是非常有必要的。典型的方法是利用现有的大量数据从相关的源域到目标域进行迁移。域适应解决的问题是:我们有数据来自两个相关的域,但是服从不同的分布。域之间的差异使得在不同域之中使用预测模型时存在障碍。例如,一个目标识别模型在手工标注的图像上训练的在测试图像上可能泛化得不好如果测试图像存在大量的姿态、遮挡或者光照的变化。域适应建立知识迁移从有标注的源数据到没标注的目标域通过探索域不变的结构来连接不同的域或者大量的分布差异[1]

建立知识迁移的主要方法之一是从数据中学习域不变的模型,这可以沟通源域和目标域在一个同构的隐特征空间。朝着这个方向,以前的一种卓有成效的工作专注于通过联合最小域差异的距离测度学习浅层特征[2],[3],[4],[5],[6],[7],[8]。然而,最近的研究表明深度神经网络可以学到更加有迁移性的特征用于域自适应[9],[10],[11]。这在一些域适应数据及上产生了突破性的结果。深度神经网络能够探索造成不同任务差异的因素在数据样本的基础上,并且分层的组织特征依照它们与不变因素的关系,使得表达对噪声鲁棒。

深度神经网络用于学习通用的和可迁移的特征更加有效,然而最新的研究同时揭示了深度特征最终必然会从一般到特殊进行转变随便网络层数的加深,特征的可迁移能力在高层也会急剧下降随着域之间的差异在高层增多。换句话说,在网络高层计算的特征一定会极大地依赖于特定的数据集和任务[11]。因此,在高层学习到的特征是特定任务的特征,是不同安全地迁移到新的任务上的。另一个有趣的现象是解开网络高层的变化因素可能扩大域之间的差异性,使得有这个新的深度表达的不同的域变得更加紧凑和更加人工可分辨的[9]。尽管深层特征对于区分来说是显著的,扩大数据集偏置可能恶化域适应性能,导致统计上无界的风险对于目标任务[12] [13]

受到对关于深度神经网络可迁移性的文献的最新理解的鼓舞,我们再本文中提出了一个新形的深度自适应网络(DAN)架构,将深度卷积神经网络推广到域适应场景。这个工作的主要思想是增强深度神经网络的特定任务层的特征迁移能力,通过显式地减少域差异性。为了达到这个目的,所以的特定任务层隐式表达嵌入到一个重生希尔伯特空间,在这个空间里不同分布的域的平均嵌入可以被显式的匹配。由于平均嵌入匹配对核的选择很敏感,一个最优的多核选择程序被设计来进一步地减少域差异性。此外,对于核平均嵌入我们实施了一个线性时间无偏估计来保证可拓展的训练,这对于深度学习是非常有必要的。最后,由于深度模型预训练利用大规模的资源库,例如ImageNet[14],对于一般目的的任务是非常有表征能力的[11],[15]。提出的DAN模型的训练通过微调在ImageNet上预训练的AlexNet[16],在caffe上实现[17]。大量的实际证据表明提出的架构比当前最好的结果表现得更好在标准的域适应基准数据集上。

这篇文章的贡献总结如下:

(1)我们提出了一个先进的深度神经网络架构用于域自适应,在这个架构里,所有的对应于特定任务的层被适应通过一个层级的行为,因此受益于深度自适应;

(2)我们探索了多个核用于使用深度表达,和单核方法相比大幅度增强了适应效果,还可以得到统计上保证的无偏深度特征。


2.深度自适应网络

在无监督域适应中,我们给出带有个标签样本的源域,以及带有个无标签样本的目标域。概率分布和分别表征源域和目标域。本篇论文的目标是构建一个深度学习神经网络,这个网络可以学习可跨越域差异的可迁移特征,并构建一个分类器,这个分类器可以最小化目标风险。在半监督的适应中,目标域具有少量带有标签的样本,我们定义为,是来自源域和目标域的注释样本。

 

2.1模型

MK-MMD 域适应面对的挑战主要因为在目标域不存在标签,为了解决这个问题,许多方法希望通过将源域误差加上源域和目标域之间的偏差度量来限制目标域的误差[13]。探索了用于双样本测试的两类统计之后,在这双样本测试中对于零 假设p=q作出接受或拒绝决定,并对分别从p和q产生的样本计算:能量距离和最大平均差异(MMD)[18]。在本文中,我们专注于由Gretton 等人提出的 MMD的多内核变体(MK-MMD)[19]。MK-MMD 是联合最大化两个样本的测 试功率并最小化 II 类误差的正式表达,即拒绝假零假设的失败。

H_k定义为具有特征内核k的重构希尔伯特空间,H_k中分布p的嵌入平均值是唯一的,记为μ_k (p),这使得对所有fϵH_k,有E_(x~p) f(x)=〈f(x),μ_k (p)〉_(H_k )。概率分布p和q之间的MK-MMD d_k (p,q)的值被定义为p和q的嵌入平均值之间的RKHS 距离。MK-MMD的平方公式定义为:

d_k^2 (p,q)≜‖E_p [∅(x^s )]-E_q [∅(x^t )]‖_(H_k)^2

最重要的特性是p=q时有d_k^2 (p,q)=0[20]。与特征映射∅,k(x^s,x^t )=〈∅(x^s ),∅(x
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值