Distant Domain Transfer Learning

最新推荐文章于 2023-10-25 10:52:58 发布

蜉蝣之翼❉

最新推荐文章于 2023-10-25 10:52:58 发布

阅读量2.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：迁移学习文章标签：迁移学习

本文链接：https://blog.youkuaiyun.com/fuyouzhiyi/article/details/83477406

迁移学习专栏收录该内容

13 篇文章

订阅专栏

本文介绍了一种名为远域迁移学习（DDTL）的新方法，它允许在源域和目标域间进行有效知识转移，即使这些域看起来完全不同。通过引入选择性学习算法（SLA）并利用中间域作为桥梁，该方法能显著提高目标域的分类精度，最大提升可达17%。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

在本文中，我们研究了一种新的转移学习问题，称为远域迁移学习（DDTL）。与现有的迁移学习问题不同，假设源域和目标域之间存在密切关系，在DDTL问题中，目标域可能与源域完全不同。例如，源域对面部图像进行分类，但目标域区分平面图像。受人类认知过程的启发，通过逐渐学习中间概念可以连接两个看似无关的概念，我们提出了一种选择性学习算法（SLA），用监督自动编码器或监督卷积自动编码器作为处理不同类型的基础模型来解决DDTL问题。投入直观地，SLA算法从中间域逐渐选择有用的未标记数据作为桥梁，以打破用于在两个远域之间传递知识的大分布间隙。对图像分类问题的实证研究证明了所提算法的有效性，并且在某些任务上，分类精度方面的改进比“非转移”方法高达17％。
在这里插入图片描述

问题定义

源域： $S={(xS1,yS1),⋯ ,(xSnS,ySnS)}\mathcal{S}=\{(x_\mathcal{S}^1,y_\mathcal{S}^1),\cdots,(x_\mathcal{S}^{n_\mathcal{S}},y_\mathcal{S}^{n_\mathcal{S}})\}$ ,其中有 $nSn_\mathcal{S}$ 个数据，足够源域做精确的分类。
目标域： $T={(xT1,yT1),⋯ ,(xTnT,yTnT)}\mathcal{T}=\{ (x_\mathcal{T}^1,y_\mathcal{T}^1),\cdots,(x_\mathcal{T}^{n_\mathcal{T}},y_\mathcal{T}^{n_\mathcal{T}}) \}$ ，仅有 $nTn_\mathcal{T}$ 个数据，不够训练好的分类器。
中间域： $I={xI1,⋯ ,xInI}\mathcal{I}=\{ x^1_\mathcal{I},\cdots, x^{n_\mathcal{I}}_\mathcal{I}\}$ ，有足够多的( $nIn_\mathcal{I}$ 个)无标记数据。

算法

1. Auto-Encoders and Its Variant

encoding function编码函数：把输入数据映射成隐藏的表示（hidden representation）即， $h=f_e(x)$ .
decoding function解码函数：重构 $x$ 即， $x^≈fd(h)\hat{x} \approx f_d(h)$ .
重构误差： $min⁡fe,fd∑i=1n∥x^i−xi∥22\min_{f_e,f_d}\sum_{i=1}^n \Vert \hat{x}_i-x_i \Vert^2_2$

2. Instance Selection via Reconstruction Error（通过重构误差的实例选择）

要从中间域中选择有用的实例，并从源域中删除目标域的不相关实例，我们建议通过最小化源域和中间域中所选实例的重建错误来学习一对编码和解码函数，和目标域中的所有实例同时进行。要最小化的目标函数表述如下：
$T1=(fe,fd,vS,vT)=1nS∑i=1nSvSi∥x^Si−xSi∥22+1nI∑i=1nIvIi∥x^Ii−xIi∥22+1nT∑i=1nTvTi∥x^Ti−xTi∥22+R(vs,vT)\mathscr{T}_1=(f_e,f_d,v_S,v_T)= \frac{1}{n_S}\sum_{i=1}^{n_\mathcal{S}} v^i_S \Vert \hat{x}^i_S-x^i_S \Vert^2_2+\frac{1}{n_I}\sum_{i=1}^{n_\mathcal{I}} v^i_I \Vert \hat{x}^i_I-x^i_I \Vert^2_2 + \frac{1}{n_T}\sum_{i=1}^{n_\mathcal{T}} v^i_T \Vert \hat{x}^i_T-x^i_T \Vert^2_2 + R(v_s,v_T)$ 其中 $vS=(vS1,⋯ ,vSnS)T,vI=(vI1,⋯ ,vInI)Tv_S=(v^1_S,\cdots,v^{n_S}_S)^T,v_I=(v^1_I,\cdots,v^{n_I}_I)^T$ ，并且 $vSi,vIj∈{0,1}v_S^i,v_I^j\in\{0,1\}$ 是选择指示数，对源域中实例 $i$ 和目标域实例 $j$ 。
$R(v_s,v_T)$ 是 $v_S,v_T$ 的正则项，是为了避免无效的答案（即，所有的 $v_S,v_T$ 值都是0
$R(vs,vT)=−λSnS∑i=1nSvSi−λInI∑i=1nIvIiR(v_s,v_T)=-\frac{\lambda_S}{n_S}\sum_{i=1}^{n_S}v_S^i-\frac{\lambda_I}{n_I}\sum_{i=1}^{n_I}v_I^i$ 其中 $λS,λI\lambda_S,\lambda_I$ 是衡量两者重要性的参数。

3. Incorporation of Side Information（合并辅助信息）

$T1\mathscr{T}_1$ 可以通过 $v_S,v_T$ ，从源域和中间域中，挑选出对目标域有用的样本。并且同时通过编码函数 $f_e$ ，在不同的域中学习出高层次的数据隐含表示（high-level hidden representations）.但是隐含表示可能与目标域的分类任务不相关。为了解决这个问题，我们需要合并从不同域中学习到的隐含表示。

在源域和目标域中，标记数据可以作为辅助信息
中间域没有标签，所以中间域的预测值作为辅助信息
用预测值的置信度来引导隐含表示的学习
$T2=1nS∑i=1nSvSiℓ(ySi,fc(hSi))+1nT∑i=1nTℓ(yTi,fc(hTi))+1nI∑i=1nIvIig(fc(hIi))\mathscr{T}_2=\frac{1}{n_S}\sum_{i=1}^{n_S}v_S^i \ell(y^i_S,f_c(h_S^i))+\frac{1}{n_T}\sum_{i=1}^{n_T} \ell(y^i_T,f_c(h_T^i))+\frac{1}{n_I}\sum_{i=1}^{n_I}v_I^i g(f_c(h_I^i))$ .
其中， $fc(⋅)f_c(\cdot)$ 分类函数； $∀0≤z≤1,g(z)=−zln⁡z−(1−z)ln⁡(1−z)\forall 0\leq z\leq 1 , g(z)=-z\ln z-(1-z)\ln (1-z)$ .