前一篇文章,介绍了指示损失函数下的机器学习ERP原则一致性的充分条件,从有限指示损失函数集推广到了无限的指示损失函数集。
本文将介绍有界实损失函数集上的一致收敛的条件。
为了区别将前文中的损失函数集记为:{Q(x;θ)|θ∈Λ}{Q(x;θ)|θ∈Λ}。
假设样本是m维的随机变量,记:
R(θ)=∫RmQ(x,θ)dF(x)R(θ)=∫RmQ(x,θ)dF(x)
Rexp(X,θ)=1n∑ni=1Q(xi,θ)Rexp(X,θ)=1n∑i=1nQ(xi,θ)XX代表任意一个样本集,有n个样本。
目标是分析:
P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)→n→∞0(1)P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)→n→∞0(1)
成立的条件。
有界实损失函数上的大数定理
先讨论实损失函数|Q(x,θ)|<ϕ(x)<∞|Q(x,θ)|<ϕ(x)<∞是有界实函数。
假定:a≤Q(x,θ)≤ba≤Q(x,θ)≤b从新表述一下∫RmQ(x,θ)dF(x)∫RmQ(x,θ)dF(x):
事实上,可以假设a=0a=0,如果∀a≠0∀a≠0,只需变换一下损失函数:Q∗(x,θ)=Q(x,θ)−aQ∗(x,θ)=Q(x,θ)−a都有:
∣∣∣∫RmQ∗(x,θ)dF(x)−1n∑k=1nQ∗(xk,θ)∣∣∣=∣∣∣∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)∣∣∣=supθ∈Λ∣R(θ)−Rexp(X,θ)∣|∫RmQ∗(x,θ)dF(x)−1n∑k=1nQ∗(xk,θ)|=|∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)|=supθ∈Λ∣R(θ)−Rexp(X,θ)∣
因此要求a=0a=0并不是必须的。为了方便描述,下文中假定a=0,B=b−a=ba=0,B=b−a=b,
从Lebesgue积分角度来看R(θ)R(θ)和Rexp(X,θ)Rexp(X,θ)
∫RmQ(x,θ)dF(x)=liml→∞Bl∑i=0l−1P{Q(x,θ)>iBl}∫RmQ(x,θ)dF(x)=liml→∞Bl∑i=0l−1P{Q(x,θ)>iBl}
对于
Rexp(X,θ)Rexp(X,θ),同样我们有:
1n∑k=1nQ(xk,θ)=liml→∞Bl∑i=0l−1v{xk:Q(xk,θ)>iBl}1n∑k=1nQ(xk,θ)=liml→∞Bl∑i=0l−1v{xk:Q(xk,θ)>iBl}
因此有:
∣∣∣∫RmQ(x,θ)dF(x)−1n∑nk=1Q(xk,θ)∣∣∣=liml→∞Bl∣∣∣∑l−1i=0(P{Q(x,θ)>iBl}−v{xk:Q(xk,θ)>iBl})∣∣∣≤liml→∞Bl∑l−1i=0(∣∣∣P{Q(x,θ)>iBl}−v{xk:Q(xk,θ)>iBl}∣∣∣)≤liml→∞Bl∑l−1i=0supβ∈(a,b)(∣∣∣P{Q(x,θ)>β}−v{xk:Q(xk,θ)>β}∣∣∣)=Bsupβ∈(a,b)(∣∣∣P{Q(x,θ)>β}−v{xk:Q(xk,θ)>β}∣∣∣)=Bsupβ∈(a,b)(∣∣∣∫Rm1{Q(x,θ)−β}dF(x)−1n∑nk=11{Q(xk,θ)−β}∣∣∣)|∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)|=liml→∞Bl|∑i=0l−1(P{Q(x,θ)>iBl}−v{xk:Q(xk,θ)>iBl})|≤liml→∞Bl∑i=0l−1(|P{Q(x,θ)>iBl}−v{xk:Q(xk,θ)>iBl}|)≤liml→∞Bl∑i=0l−1supβ∈(a,b)(|P{Q(x,θ)>β}−v{xk:Q(xk,θ)>β}|)=Bsupβ∈(a,b)(|P{Q(x,θ)>β}−v{xk:Q(xk,θ)>β}|)=Bsupβ∈(a,b)(|∫Rm1{Q(x,θ)−β}dF(x)−1n∑k=1n1{Q(xk,θ)−β}|)
由此我们得到:
supθ∈Λ∣∣∣∫RmQ(x,θ)dF(x)−1n∑nk=1Q(xk,θ)∣∣∣≤Bsupθ∈Λ;β∈(a,b)(∣∣∣∫Rm1{Q(x,θ)−β}dF(x)−1n∑nk=11{Q(xk,θ)−β}∣∣∣)supθ∈Λ|∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)|≤Bsupθ∈Λ;β∈(a,b)(|∫Rm1{Q(x,θ)−β}dF(x)−1n∑k=1n1{Q(xk,θ)−β}|)
将有界实函数转化到指示损失函数
I(x,θ,β)=1{Q(x,θ)−β}I(x,θ,β)=1{Q(x,θ)−β}上,不过增加了一个参数
ββ,根据指示损失函数上的结论,得到下面的不等式:
P(supθ∈Λ∣∣∣∫RmQ(x,θ)dF(x)−1n∑nk=1Q(xk,θ)∣∣∣>ε)≤P(supθ∈Λ;β∈(a,b)∣∣∣∫Rm1{Q(x,θ)−β}dF(x)−1n∑nk=11{Q(xk,θ)−β}∣∣∣>εB)=P(supθ∈Λ;β∈(a,b)∣∣∣∫RmI(x,θ,β)dF(x)−1n∑nk=1I(xi,θ,β)∣∣∣>εB)≤2NΛ,β(n)e−ε22B2n=2exp((HΛ,βvc(n)n−ε22B2)n)P(supθ∈Λ|∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)|>ε)≤P(supθ∈Λ;β∈(a,b)|∫Rm1{Q(x,θ)−β}dF(x)−1n∑k=1n1{Q(xk,θ)−β}|>εB)=P(supθ∈Λ;β∈(a,b)|∫RmI(x,θ,β)dF(x)−1n∑k=1nI(xi,θ,β)|>εB)≤2NΛ,β(n)e−ε22B2n=2exp((HvcΛ,β(n)n−ε22B2)n)
于是有下面的定理:
定理3:在实损失函数集
|Q(x,θ)|<∞|Q(x,θ)|<∞上,
∀ε>0∀ε>0,期望风险和经验风险满足如下不等式:
P(supθ∈Λ∣∣∣∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)∣∣∣>ε)≤2exp((HΛ,βvc(n)n−ε22B2)n)P(supθ∈Λ|∫RmQ(x,θ)dF(x)−1n∑k=1nQ(xk,θ)|>ε)≤2exp((HvcΛ,β(n)n−ε22B2)n)
推论3:在实损失函数集
|Q(x,θ)|<∞|Q(x,θ)|<∞上,统计学习机期望风险与经验风险一致双边收敛的充分条件是:
limn→∞HΛ,βvc(n)n=0limn→∞HvcΛ,β(n)n=0
经将有界实损失函数转化到指示损失函数上的方法,我们找到了在有界实损失函数集期望风险和经验风险双边一致收敛的充分条件。