迁移学习综述笔记
Paper Reading Note
URL: https://arxiv.org/pdf/1903.04687.pdf
TL;DR
19年所做的对迁移学习和域适应(作者统称为Transfer Adaptation Learning,TAL)的综述,总结了five key challenges of TAL以及TAL模型测试的12个benchmark.作者认为TAL研究的五大关键技术是:
- Instance Re-Weighting Adaptation,样本迁移,在源域中找到与目标域相似的数据,把这个数据的权值进行调整,使得新的数据与目标域的数据进行匹配,然后加重该样本的权值,使得在预测目标域时的比重加大
- Feature Adaptation,特征适应,意在为不同域的数据找到共同的特征表示方法
- Classifier Adaptation,分类器适应,利用source domain的大量带标注数据和target domain的少量带标注数据学习一个generic classifier
- Deep Network Adaptation,DNN适应,研究如何将DNN学习到的特征在不同领域间迁移
- Adversial Adaptation,对抗式适应,基于GAN的思想,使特征生成和域分类器进行对抗训练,直到两个领域的分布难以区分
五个领域细分的taxonomy我自己画了一张图概括,全文的信息量对刚接触TL的同学来说非常大,详细的介绍见note正文.个人认为对我们的工作意义较大的部分是DNN Adaptation和Adversial Adaptation,
Information below is optional; you can change/remove it if you like
Taxonomy of TAL Methods
1.Instance Re-Weighting Adaptation
样本迁移,在源域中找到与目标域相似的数据,把这个数据的权值进行调整,使得新的数据与目标域的数据进行匹配,然后加重该样本的权值,使得在预测目标域时的比重加大.单纯的Instance Re-Weighting方法适用于source与target 分布差距不大时,差距较大时Instance Weighting一般与其他技术共用.样本迁移的方法可分为三个子模型:
1.1 Intuitive Re-Weighting
最早的朴素Instance Reweighting方法,即学习权重使source domain的数据分布接近target domain
1.2 Kernel Mapping Based Re-Weighting
Intuitive Re-Weighting是在raw dataspace上操作的,而Kernel Mapping Based-ReWeighting是通过kernel mapping,使source和target在再生的希尔伯特核空间(RKHS)上距离最小化(距离衡量用MMD或KMM)做Distribution Mapping.核映射后两个域的边缘分布相似,但条件分布仍不同,可以利用Sample Selelction做进一步变换,可以利用cluster assumption做聚类,选取同一个cluster中标签相同的source samples,另一种方法是TJM model, 给变换矩阵加上范数正则项排除Outliers:
1.3 Co-training Based Weighting
共同训练法, 首先分别在每个视图上利用有标记样本训练一个分类器;然后,每个分类器从未标记样本中挑选若干标记置信度(即对样本赋予正确标记的置信度)高的样本进行标记,并把这些“伪标记”样本(即其标记是由学习器给出的)加入另一个分类器的训练集中,以便对方利用这些新增的有标记样本进行更新。
2. Feature Adaptation
2.1 Feature Subspace-Based
利用子空间变换做无监督域适应,代表有sampling geodesic flow(SGF),geodesic flow kernel(GFK) and subspace alignment(SA),共同的假设是数据可在低维线性子空间表示,常用PCA做降维, 然后在子空间上做域适应,有两种思路:
- 利用Geodesic flow kernel,集成无穷多个子空间来模拟域的移动,代表方法有SGF和GFK,参见论文Geodesic Flow Kernel for Unsupervised Domain Adaptation
- subspace alignment,利用变换矩阵等方法直接对其\source和target的subspace对齐,代表方法有SA,SDA,GTH
2.2 Feature Transformation-Based
对数据做变换或映射使source domain和target domain的分布尽量match.CV领域迁移学习的主流之一,可分为:
-
Projection-Based:学习一个源域和目标域之间的映射矩阵最小化分布差异
-
Metric-Based: 在带标签的源域上学习一个合适的distance metric,使之也适用于目标域
-
Augementation-Based:特征增强方法,假设数据的特征可分为common,source specific,target specific三种,基于此进行数据增强
- Zero Padding, 代表是HFA
- Generative Methods 生成数据加强domain transfer的鲁棒性,代表的文章是Adversarial Feature Augmentation for Unsupervised Domain Adaptation,训练两个GAN分别做数据增强和特征提取
- Zero Padding, 代表是HFA
2.3 Feature Reconstruction-Based
利用source domain重建target domain以学习共同特征,排除outliers和噪音,对reconstruction矩阵加以rank或sparsity的限制以更好地学习两个领域的相关性
- Low-rank Reconstruction,
- Sparsity Reconstruction