本文要解决的问题
- 在)什么条件下,由源域训练的分类器能在目标域上取得很好的效果
- 鉴于目标域中只有少量的标记数据,在训练过程中,我们应该怎样利用拥有大量已标记数据的源域使得在测试的时候目标误差最低。
相关概念
1.域适应(domain adaptation)
域适应模型
我们考虑二分类的域适应问题。
定义领域为分布D\mathcal{D}D,输入X\mathcal{X}X,标签函数f:X→[0,1]f:\mathcal{X}\to[0,1]f:X→[0,1].源域<DS,fS><\mathcal{D}_S,f_S><DS,fS>,目标域<DT,fT><\mathcal{D}_T,f_T><DT,fT>.
假设另一个函数为h:X→[0,1]h:\mathcal{X}\to[0,1]h:X→[0,1],则假设函数hhh与真实标签函数的差定义为:ϵS(h,f)=EX∼DS[∣h(x)−f(x)∣]\epsilon_S(h,f)=E_{X\sim\mathcal{D}_S}[|h(x)-f(x)|]ϵS(h,f)=EX∼DS[∣h(x)−f(x)∣].
使用记号ϵS(h)=ϵS(h,fS)\epsilon_S(h)=\epsilon_S(h,f_S)ϵS(h)=ϵS(h,fS)
源域和目标域误差估计
在源域上训练一个分类器,计算这个分类器在目标域上的泛化误差。
我们用L1L^1L1来衡量两个分布之间的差异d1(D,D′)=2supB∈B∣PrD[B]−PrD′[B]∣d_1(\mathcal{D},\mathcal{D'})=2\sup_{B\in\mathcal{B}}|Pr_\mathcal{D}[B]-Pr_\mathcal{D'}[B]|d1(D,D′)=2B∈Bsup∣PrD[B]−PrD′[B]∣其中B\mathcal{B}B是D\mathcal{D}D和D′\mathcal{D'}D′的可测子集。
定理一:对任意假设函数hhh,ϵT(h)≤ϵS(h)+d1(DS,DT)+min{EDS[∣fS(x)−fT(x)∣],EDT[∣fS(x)−fT(x)∣]}\epsilon_T(h)\leq\epsilon_S(h)+d_1(\mathcal{D}_S,\mathcal{D}_T)+\min\{E_{\mathcal{D}_S}[|f_S(x)-f_T(x)|],E_{\mathcal{D}_T}[|f_S(x)-f_T(x)|]\}ϵT(h)≤ϵS(h)+d1(DS,DT)+min{EDS[∣fS(x)−fT(x)∣],EDT[∣fS(x)−fT(x)∣]}.
证明: 令ϵT(h)=ϵT(h,fT)\epsilon_T(h)=\epsilon_T(h,f_T)ϵT(h)=ϵT(h,fT),ϵS(h)=ϵS(h,fS)\epsilon_S(h)=\epsilon_S(h,f_S)ϵS(h)=ϵS(h,fS)。记DS\mathcal{D}_SDS和DT\mathcal{D}_TDT的概率密度函数为ϕS\phi_SϕS和ϕT\phi_TϕT
ϵT(h)=ϵT(h)+ϵS(h)−ϵS(h)+ϵS(h,fT)−ϵS(h,fT)\epsilon_T(h)= \epsilon_T(h)+\epsilon_S(h)-\epsilon_S(h)+\epsilon_S(h,f_T)-\epsilon_S(h,f_T)ϵT(h)=ϵT(h)+ϵS(h)−ϵS(h)+ϵS(h,fT)−ϵS(h,fT) ≤ϵS(h)+∣ϵS(h)−ϵS(h)∣+∣ϵS(h,fT)−ϵS(h,fT)∣\leq\epsilon_S(h)+|\epsilon_S(h)-\epsilon_S(h)|+|\epsilon_S(h,f_T)-\epsilon_S(h,f_T)|≤ϵS(h)+∣ϵS(h)−ϵS(h)∣+∣ϵS(h,fT)−ϵS(h,fT)∣ =ϵS(h)+∣EX∼DS[∣h(x)−fT(x)∣]−EX∼DS[∣h(x)−fS(x)∣]∣+∣∣EX∼DT[∣h(x)−fT(x)∣]−∣EX∼DS[∣h(x)−fT(x)∣]∣=\epsilon_S(h)+|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]-E_{X\sim\mathcal{D}_S}[|h(x)-f_S(x)|]|+||E_{X\sim\mathcal{D}_T}[|h(x)-f_T(x)|]-|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]|=ϵS(h)+∣EX∼DS[∣h(x)−fT(x)∣]−EX∼DS[∣h(x)−fS(x)∣]∣+∣∣EX∼DT[∣h(x)−fT(x)∣]−∣EX∼DS[∣h(x)−fT(x)∣]∣ ≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+∫∣ϕS(x)−ϕT(x)∣∣h(x)−fT(x)∣dx\leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+\int|\phi_S(x)-\phi_T(x)||h(x)-f_T(x)| \mathrm{d}x≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+∫∣ϕS(x)−ϕT(x)∣∣h(x)−fT(x)∣dx ≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+d1(DS,DT).\leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+d_1(\mathcal{D}_S,\mathcal{D}_T).≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+d1(DS,DT).
分析:
上面的不等式右边的第一项是 源域分类器在源域中的误差;第三项是 标签函数在两个域之间的差异。
第二项的问题:
1. 对任意分布,d1(DS,DT)d_1(\mathcal{D}_S,\mathcal{D}_T)d1(DS,DT)不能被有限样本正确估计。
2. 它包含了所有可测集的最大值,L1L^1L1度量方式太严谨了,以至于夸大了边界
由于 我们只对假设函数hhh在某一些类上的误差感兴趣,所以我们要把注意力集中到可计算误差的子集上。
H\mathcal{H}H—散度
给定两个在领域X\mathcal{X}X上的分布:D\mathcal{D}D和D′\mathcal{D'}D′。令 H\mathcal{H}H为X\mathcal{X}X上的假设类集合。hhh是集合I(h)I(h)I(h)的特征函数,即x∈I(x)⟺h(x)=1x\in I(x)\Longleftrightarrow h(x)=1x∈I(x)⟺h(x)=1.分布D\mathcal{D}D和D′\mathcal{D'}D′的H\mathcal{H}H—散度为dH(D,D′)=2suph∈H∣PrD[I(h)]−PrD′[I(h)]∣.d_\mathcal{H}(\mathcal{D},\mathcal{D'})=2\sup_{h\in\mathcal{H}}|Pr_\mathcal{D}[I(h)]-Pr_\mathcal{D'}[I(h)]|.dH(D,D′)=2h∈Hsup∣PrD[I(h)]−PrD′[I(h)]∣.优点:
- 对于有限VC维的假设类H\mathcal{H}H,H\mathcal{H}H—散度能通过有限的样本估计。
- 对于任意的假设类H\mathcal{H}H,H\mathcal{H}H—散度小于等于L1L^1L1散度
注:
1.假设类(hypothesis class):在一般的分类中,假设类是您正在考虑的一组可能的分类函数; 学习算法从假设类中选择一个函数。
2.特征函数:设XXX是非空集合,
φA(x)={1,x∈A0,x∉A\varphi_A(x)= \begin{cases} 1,x\in A \\ 0,x\notin A \end{cases}φA(x)={1,x∈A0,x∈/A3.本文探讨的是二分类问题,标签 y=1y=1y=1 or y=0y=0y=0。所以h(x)=1h(x)=1h(x)=1,表示标签为1的样本。又x∈I(x)⟺h(x)=1x\in I(x)\Longleftrightarrow h(x)=1x∈I(x)⟺h(x)=1。所以此时x∈I(x)x\in I(x)x∈I(x)是指xxx是标签为1的样本。
定理二 假设空间H\mathcal{H}H的VCVCVC维是ddd。如果US,HT\mathcal{U}_S , \mathcal{H}_TUS,HT是大小为m′m'm′,分别服从于DS\mathcal{D}_SDS和DT\mathcal{D}_TDT的无标签样本,那么对于任意的δ∈(0,1)\delta\in(0,1)δ∈(0,1),对于任意的h∈Hh\in\mathcal{H}h∈H有ϵT(h)≤ϵS(h)+12d^HΔU(US,UT)+42dlog(2m′)+log(2δ)m′+λ\epsilon_T(h)\leq\epsilon_S(h)+\frac 12\hat d_{\mathcal{H}\Delta\mathcal{U}}(\mathcal{U}_S,\mathcal{U}_T)+4 \sqrt {\frac{2d\log(2m')+\log(\frac2\delta)}{m'}} +\lambdaϵT(h)≤ϵS(h)+21d^HΔU(US,UT)+4m′2dlog(2m′)+log(δ2)+λ
定理二说明:对于分类器hhh,目标域误差小于源域的误差加上样本点的散度再加上一些常数。