A theory of learning from different domains

本文探讨了在目标域中利用源域训练的分类器降低目标误差的方法,分析了域适应模型,介绍了源域和目标域误差估计的理论,并提出了通过H—散度评估分布差异的改进方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文要解决的问题

  1. 在)什么条件下,由源域训练的分类器能在目标域上取得很好的效果
  2. 鉴于目标域中只有少量的标记数据,在训练过程中,我们应该怎样利用拥有大量已标记数据的源域使得在测试的时候目标误差最低。

相关概念

1.域适应(domain adaptation)

域适应模型

  我们考虑二分类的域适应问题。
  定义领域为分布D\mathcal{D}D,输入X\mathcal{X}X,标签函数f:X→[0,1]f:\mathcal{X}\to[0,1]f:X[0,1].源域&lt;DS,fS&gt;&lt;\mathcal{D}_S,f_S&gt;<DS,fS>,目标域&lt;DT,fT&gt;&lt;\mathcal{D}_T,f_T&gt;<DT,fT>.
  假设另一个函数为h:X→[0,1]h:\mathcal{X}\to[0,1]h:X[0,1],则假设函数hhh与真实标签函数的差定义为:ϵS(h,f)=EX∼DS[∣h(x)−f(x)∣]\epsilon_S(h,f)=E_{X\sim\mathcal{D}_S}[|h(x)-f(x)|]ϵS(h,f)=EXDS[h(x)f(x)].
  使用记号ϵS(h)=ϵS(h,fS)\epsilon_S(h)=\epsilon_S(h,f_S)ϵS(h)=ϵS(h,fS)

源域和目标域误差估计

  在源域上训练一个分类器,计算这个分类器在目标域上的泛化误差。
  我们用L1L^1L1来衡量两个分布之间的差异d1(D,D′)=2sup⁡B∈B∣PrD[B]−PrD′[B]∣d_1(\mathcal{D},\mathcal{D&#x27;})=2\sup_{B\in\mathcal{B}}|Pr_\mathcal{D}[B]-Pr_\mathcal{D&#x27;}[B]|d1(D,D)=2BBsupPrD[B]PrD[B]其中B\mathcal{B}BD\mathcal{D}DD′\mathcal{D&#x27;}D的可测子集。
定理一:对任意假设函数hhhϵT(h)≤ϵS(h)+d1(DS,DT)+min⁡{EDS[∣fS(x)−fT(x)∣],EDT[∣fS(x)−fT(x)∣]}\epsilon_T(h)\leq\epsilon_S(h)+d_1(\mathcal{D}_S,\mathcal{D}_T)+\min\{E_{\mathcal{D}_S}[|f_S(x)-f_T(x)|],E_{\mathcal{D}_T}[|f_S(x)-f_T(x)|]\}ϵT(h)ϵS(h)+d1(DS,DT)+min{EDS[fS(x)fT(x)],EDT[fS(x)fT(x)]}.
证明:ϵT(h)=ϵT(h,fT)\epsilon_T(h)=\epsilon_T(h,f_T)ϵT(h)=ϵT(h,fT)ϵS(h)=ϵS(h,fS)\epsilon_S(h)=\epsilon_S(h,f_S)ϵS(h)=ϵS(h,fS)。记DS\mathcal{D}_SDSDT\mathcal{D}_TDT的概率密度函数为ϕS\phi_SϕSϕT\phi_TϕT
ϵT(h)=ϵT(h)+ϵS(h)−ϵS(h)+ϵS(h,fT)−ϵS(h,fT)\epsilon_T(h)= \epsilon_T(h)+\epsilon_S(h)-\epsilon_S(h)+\epsilon_S(h,f_T)-\epsilon_S(h,f_T)ϵT(h)=ϵT(h)+ϵS(h)ϵS(h)+ϵS(h,fT)ϵS(h,fT) ≤ϵS(h)+∣ϵS(h)−ϵS(h)∣+∣ϵS(h,fT)−ϵS(h,fT)∣\leq\epsilon_S(h)+|\epsilon_S(h)-\epsilon_S(h)|+|\epsilon_S(h,f_T)-\epsilon_S(h,f_T)|ϵS(h)+ϵS(h)ϵS(h)+ϵS(h,fT)ϵS(h,fT) =ϵS(h)+∣EX∼DS[∣h(x)−fT(x)∣]−EX∼DS[∣h(x)−fS(x)∣]∣+∣∣EX∼DT[∣h(x)−fT(x)∣]−∣EX∼DS[∣h(x)−fT(x)∣]∣=\epsilon_S(h)+|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]-E_{X\sim\mathcal{D}_S}[|h(x)-f_S(x)|]|+||E_{X\sim\mathcal{D}_T}[|h(x)-f_T(x)|]-|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]|=ϵS(h)+EXDS[h(x)fT(x)]EXDS[h(x)fS(x)]+EXDT[h(x)fT(x)]EXDS[h(x)fT(x)] ≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+∫∣ϕS(x)−ϕT(x)∣∣h(x)−fT(x)∣dx\leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+\int|\phi_S(x)-\phi_T(x)||h(x)-f_T(x)| \mathrm{d}xϵS(h)+EXDS[fS(x)fT(x)]+ϕS(x)ϕT(x)h(x)fT(x)dx ≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+d1(DS,DT).\leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+d_1(\mathcal{D}_S,\mathcal{D}_T).ϵS(h)+EXDS[fS(x)fT(x)]+d1(DS,DT).
分析:
  上面的不等式右边的第一项是 源域分类器在源域中的误差;第三项是 标签函数在两个域之间的差异。
  第二项的问题:
    1. 对任意分布,d1(DS,DT)d_1(\mathcal{D}_S,\mathcal{D}_T)d1(DS,DT)不能被有限样本正确估计。
     2. 它包含了所有可测集的最大值,L1L^1L1度量方式太严谨了,以至于夸大了边界
  由于 我们只对假设函数hhh在某一些类上的误差感兴趣,所以我们要把注意力集中到可计算误差的子集上。

H\mathcal{H}H—散度

  给定两个在领域X\mathcal{X}X上的分布:D\mathcal{D}DD′\mathcal{D&#x27;}D。令 H\mathcal{H}HX\mathcal{X}X上的假设类集合。hhh是集合I(h)I(h)I(h)的特征函数,即x∈I(x)⟺h(x)=1x\in I(x)\Longleftrightarrow h(x)=1xI(x)h(x)=1.分布D\mathcal{D}DD′\mathcal{D&#x27;}DH\mathcal{H}H—散度为dH(D,D′)=2sup⁡h∈H∣PrD[I(h)]−PrD′[I(h)]∣.d_\mathcal{H}(\mathcal{D},\mathcal{D&#x27;})=2\sup_{h\in\mathcal{H}}|Pr_\mathcal{D}[I(h)]-Pr_\mathcal{D&#x27;}[I(h)]|.dH(D,D)=2hHsupPrD[I(h)]PrD[I(h)].优点:

  1. 对于有限VC维的假设类H\mathcal{H}HH\mathcal{H}H—散度能通过有限的样本估计。
  2. 对于任意的假设类H\mathcal{H}HH\mathcal{H}H—散度小于等于L1L^1L1散度
    注:
    1.假设类(hypothesis class):在一般的分类中,假设类是您正在考虑的一组可能的分类函数; 学习算法从假设类中选择一个函数。
    2.特征函数:设XXX是非空集合,
    φA(x)={1,x∈A0,x∉A\varphi_A(x)= \begin{cases} 1,x\in A \\ 0,x\notin A \end{cases}φA(x)={1,xA0,x/A3.本文探讨的是二分类问题,标签 y=1y=1y=1 or y=0y=0y=0。所以h(x)=1h(x)=1h(x)=1,表示标签为1的样本。又x∈I(x)⟺h(x)=1x\in I(x)\Longleftrightarrow h(x)=1xI(x)h(x)=1。所以此时x∈I(x)x\in I(x)xI(x)是指xxx是标签为1的样本。

    定理二 假设空间H\mathcal{H}HVCVCVC维是ddd。如果US,HT\mathcal{U}_S , \mathcal{H}_TUS,HT是大小为m′m&#x27;m,分别服从于DS\mathcal{D}_SDSDT\mathcal{D}_TDT的无标签样本,那么对于任意的δ∈(0,1)\delta\in(0,1)δ(0,1),对于任意的h∈Hh\in\mathcal{H}hHϵT(h)≤ϵS(h)+12d^HΔU(US,UT)+42dlog⁡(2m′)+log⁡(2δ)m′+λ\epsilon_T(h)\leq\epsilon_S(h)+\frac 12\hat d_{\mathcal{H}\Delta\mathcal{U}}(\mathcal{U}_S,\mathcal{U}_T)+4 \sqrt {\frac{2d\log(2m&#x27;)+\log(\frac2\delta)}{m&#x27;}} +\lambdaϵT(h)ϵS(h)+21d^HΔU(US,UT)+4m2dlog(2m)+log(δ2)+λ
    定理二说明:对于分类器hhh,目标域误差小于源域的误差加上样本点的散度再加上一些常数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值