【论文笔记】迁移自适应学习综述

本文是对《Transfer Adaptation Learning: A Decade Survey》论文的笔记,探讨了在源域和目标域分布不匹配的情况下,如何通过实例权重调整、特征自适应、分类器自适应和深度网络自适应等方法进行迁移学习。论文详细阐述了各种方法,如基于直觉和核映射的权重调整、特征子空间和变换、对抗式自适应等,以实现更好的跨域学习效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文题目:《Transfer Adaptation Learning: A Decade Survey》

论文作者:Lei Zhang

论文链接http://cn.arxiv.org/pdf/1903.04687.pdf


介绍

在很多实际的情况中, 源域(source domain)目标域(target domain)之间存在:

  • 分布不匹配(distribution mismatch)
  • 领域偏移(domain shift)

独立同分布(independent identical distribution, i.i.d)的假设不再满足!

  • 迁移学习(transfer learning)假设源域与目标域拥有不同的联合概率分布
    \[ P(X_{source}, Y_{source}) \neq P(X_{target}, Y_{target}) \]

  • 领域自适应(domain adaptation)假设源域与目标域拥有不同的边缘概率分布, 但拥有相同的条件概率分布
    \[ P(X_{source}) \neq P(X_{target}), P(Y_{source} | X_{source}) = P(Y_{target} | X_{target}) \]


实例权重调整自适应

当训练集和测试集来自不同分布时, 这通常被称为采样选择偏差(sample selection bias)或者协方差偏移(covariant shift).

实例权重调整方法旨在通过非参数方式对跨域特征分布匹配直接推断出重采样的权重.

基于直觉的权重调整

直接对原始数据进行权重调整.

首次提出于NLP领域1, 主要的方法有著名的TrAdaBoost2.

基于核映射的权重调整

将原始数据映射到高维空间(如,再生核希尔伯特空间RKHS)中进行权重调整.

分布匹配

主要思想是通过重新采样源数据的权重来匹配再生核希尔伯特空间中源数据和目标数据之间的均值.

主要有两种非参数统计量来衡量分布差异:

  • 核均值匹配(kernel mean matching, KMM)

\[ \begin{array}{l} {\min \limits_{\beta}\left\|E_{x^{\prime} \sim P_{r}^{\prime}}\left[\Phi\left(x^{\prime}\right)\right]-E_{x \sim P_{r}}[\beta(x) \Phi(x)]\right\|} \\ {\text {s.t.} \quad \beta(x) \geq 0, E_{x \sim P_{r}}[\beta(x)]=1} \end{array} \]

Huang等人3首次提出通过调整源样本的\(\beta\)权重系数, 使得带权源样本和目标样本的KMM最小.

  • 最大均值差异(maximum mean discrepancy, MMD)45

\[ d_{\mathcal{H}}^{2}\left(\mathcal{D}_{s}, \mathcal{D}_{t}\right)=\left\|\frac{1}{M} \sum_{i=1}^{M} \phi\left(x_{i}^{s}\right)-\frac{1}{N} \sum_{j=1}^{N} \phi\left(x_{j}^{t}\right)\right\|_{\mathcal{H}}^{2} \]

weighted MMD6方法考虑了类别权重偏差.

样本选择

主要方法有基于k-means聚类的KMapWeighted7, 基于MMD和\(\ell_{2,1}\)-norm的TJM8等.

协同训练

主要思想是假设数据集被表征为两个不同的视角, 使两个分类器独立地从每个视角中进行学习.

主要方法有CODA9, 以及基于GAN的RANN10等.


特征自适应

特征自适应方法旨在寻找多源数据(multiple sources)的共同特征表示.

基于特征子空间

该方法假设数据可以被低维线性子空间进行表示, 即低维的格拉斯曼流形(Grassmann manifold)被嵌入到高维数据中.

通常用PCA方法来构造该流形, 使得源域和目标域可以看成流形上的两个点, 并得到两者的测地线距离(geodesic flow).

  • 基于流形的方法有SGF11GFK

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值