考察一下极大似然估计,这是数理统计里面经典的参数估计模型。
设有样本(xi,yi,i=1..n),假设模型为y=wx+b+ε,ε∼N(0,σ2)。要估计参数w,b 把模型改变一下就有:
改记函数:L(y,x;w,b)=−ln(ϕ(yi,xi;w,b))
定义似然函数:
最小化l(y⃗ ,x⃗ ;w,b)就得到了w、b的参数值w^、b^,于是我们得到了一个统计模型y=w^x+b^.
考察一下这个模型,它是一个最优化模型:
这里并不是要介绍极大似然方法的解法,而是更一般的来看看这个最优化模型:
1、 X,Y是两个随机变量,为了方便描述以后就统一记为X;
2、
3、目标函数是1n∑ni=1L(xi;θ),是L(x;θ)在样本上的均值。
在机器学习领域,将L(x;θ)称为损失函数,它是一簇函数,一般而言,它度量模型因变量预测值与观测量之间差异的损失,损失函数包含了模型信息包括模型参数,并且通常要求是非负的;将 E(L(x;θ))称为期望风险,记为R(θ),要估计期望风险必须知道X的分布函数,但是通常这是未知的。将
一般的统计学习或者机器学的问题是求解最小化经验风险:infθ∈ΛRemp(Xn,θ),求得θ,这一方法称为经验风险最小化原则(ERP原则).
仿照大数定理改写一下极大似然估计的目标函数,希望下式成立,这样机器学习到的参数是一致的:
上面的表达式损失函数集{L(x;θ)|θ∈Λ}如果只有有限个元素,就将回到以前的普通的大数定理,这个时候上式必然成立。若损失函数集有无穷上多个元素,如下问题还成立吗?什么条件下成立?
如果问号不能去掉,机器可能学习到的是错误的参数。
定义:若infθ∈ΛRemp(Xn,θ)→pinfθ∈ΛR(θ),称为ERP原则一致的。
还有一种情况,若函数集{L(x;θ)|θ∈Λ}包含这样一个函数ϕ(x),infθ∈ΛL(x;θ)>ϕ(x),则必然导致
定义:对函数集{L(x;θ)|θ∈Λ}定义其子集:
Λ(c)={a∣∫L(x;a)dF(x)>c;a∈Λ}
如果对函数集的任意非空子集Λ(c),c∈R都有:infθn∈Λ(c)Remp(Xn,θ)→pinfθ∈Λ(c)R(θ)
成立,则称ERM原则对函数集{L(x;θ)|θ∈Λ}和概率分布函数是非平凡一致的。说句废话,非平凡一致排除了函数集中个别函数外,仍然能保持ERP原则是一致的。
下文中如果提到ERP原则一致的,都指非平凡的。
那么什么条件下ERP方法是一致的呢?显然首先得要求|∫L(x;θ)dF(x)|<∞真实风险发散了就什么都不要谈了。
Vapnik和Chervonenkis 两位大神在1989年就为我们找到了ERP原则是一致的得充要条件。
关键定理: 设函数集满足|∫L(x;θ)dF(x)|<∞,则有ERP原则一致性的充要条件是:
经验风险Rexp(Xn,θn)在函数集{L(x;θ)|θ∈Λ}上如下意义的收敛于实际风险R(θ):
limn→∞P(supθ∈Λ(R(θ)−Remp(Xn,θ))>ε)=0;∀ε>0(2)
有没有嗅到大数定理的影子?关键定理告诉我们要保证学习一致性,先要保证(2)成立,而2左边是函数集
因此泛函上的大数定理是统计学习理论基础,这次真的升级了,从抽样调查升级到了统计学习。
要想直观的看清关键定理,先弄明白三件事:
1、R(θ)=∫L(x;θ)dF(x)<∞,中的概率分布F(x)只要求保证R(θ)<∞,没有其他要求;
2、对于任意一个指定的F(x),R(θ)是参数θ的函数,不是随机变量;
3、Remp(Xn,θ)=1n∑ni=1L(xi;θ)是随机变量,因为xi是随机变量。
关键定理证明
先做些准备工作:
由于R(θ)<∞,可以假定a≤R(θ)≤b,对a,b做如下分割:
令:a1=a,am=b,ai+1−ai<ε2,i=1..m−1
根据有限覆盖定理,存在m<∞.满足分割要求
这种分割之下,有:
Λ(b)=Λ(an)⊂..Λ(ak+1)⊂Λ(ak)..Λ(a1)=Λ(a)=Λ
定义:Λ^k=Λ(ak)/Λ(ak+1),Λ^m=Λm
Λ^k={θ|θ∈Λ(ak+1),θ∉Λ(ak)},k=1..m−1
则有:
1、Λ^k∩Λ^j=ϕ,∀i≠j;∪mi=1Λ^i=Λ
2、supθ∈Λ^kR(θ)=ak+1,infθ∈Λ^kR(θ)=ak
3、supθ∈Λ^kR(θ)≤infθ∈Λ(ak+1)R(θ)=ak+1<ak+ε2=infθ∈Λ(ak)R(θ)+ε2(2)
注意(2)式下文证明中两次用到,这是sup 转变为inf的关键。“⇒:”
对于任意的ak,定义事件Tk:infθ∈Λ(ak)Rexp(Xn,θ)<infθ∈Λ(ak)R(θ)−ε2
ERP原则一致性要求,有infθ∈Λ(ak)Rexp(Xn,θ)→pinfθ∈Λ(ak)R(θ)
得到limn→∞P(Tk)=0令T=∪ni=1Ti,则有limn→∞P(T)≤∑ni=1limn→∞P(Tk)=0
定义事件A:supθ∈Λ(R(θ)−Remp(Xn,θ))>ε发生了,
则必然存在某个Λ^k,θ∗∈Λ^k使得:supR(θ∗)−infRexp(Xn,θ∗)>ε.
因为:
supR(θ∗)<infθ∈Λ(ak+1)R(θ)<infθ∈Λ(ak)R(θ)+ε2
infRexp(Xn,θ∗)=infθ∈Λ(ak)Rexp(Xn,θ)
因此有
infθ∈Λ(ak)R(θ)+ε2>infθ∈Λ(ak)Rexp(Xn,θ)+ε
这意味着事件T发生了,即A事件发生蕴含T事件发生。因此有:
limn→∞P(A)≤limn→∞P(T)=0
即:
limn→∞P(supθ∈Λ(R(θ)−Rexp(Xn,θ))>ε)=0;∀ε>0
接着证明:”⇐:”
若limn→∞P(supθ∈Λ(R(θ)−Rexp(Xn,θ))>ε)=0;∀ε>0成立:
则对于任意的θ∈Λ^k,i=1..n都有:
limn→∞P(supθ∈Λ^k(R(θ)−Rexp(Xn,θ))>ε)=0;∀ε>0
得到:
limn→∞P(supθ∈Λ^kRθ)−infθ∈Λ^kRexp(Xn,θ)>ε)=0;∀ε>0
应用前面提到的(2)式得到:
limn→∞P(infθ∈Λ(ak)Rθ)−infθ∈Λ(ak)Rexp(Xn,θ)>ε2)=0;∀ε>0(3)
至此,完成了单边一致的证明。
下面证明严格一致性也成立:
假定时间发生了事件A2:infθ∈Λ(ak)Rexp(Xn,θ)−infθ∈Λ(ak)R(θ)>ε则必有:
infθ∈Λ(ak)Rexp(Xn,θ)>infθ∈Λ(ak)R(θ)+ε=R(θ∗)+ε2,θ∗∈Λ^(ak)得到:
Rexp(Xn,θ∗)>R(θ∗)+ε2,θ∗∈Λ^(ak)
根据大数定理,必然有:
Rexp(Xn,θ∗)→pR(θ∗),
所以下式成立:
limn→∞P(infθ∈Λ(ak)Rexp(Xn,θ)−infθ∈Λ(ak)R(θ)>ε)=0;∀ε>0(4)
根据(3)(4)两式,有:
limn→∞P(∣∣infθ∈Λ(ak)Rθ)−infθ∈Λ(ak)Rexp(Xn,θ)∣∣>ε2)=0;∀ε>0
即:
infθ∈ΛRexp(Xn,θ)→pinfθ∈ΛRθ)
证明完毕。
在此,我们看到了ERP原则一致性,等价于单边一致收敛:
但是,到此还没有讨论到单边一致收敛对损失函数有何要求。关键定理是整个统计学习理论的重要一步,它将问题进行了转化。
后面从双边一致性开始讨论,双边一致形式如下:
概率P是函数集
Vapnik大师由简单到复杂,一步一步证明,其中知识贯通了概率论,测度论,展示了精湛的分析功力,顶礼膜拜一下这位大师。
这位大师将损失函数集{L(x;θ)|θ∈Λ}从最简单的有限个元素示性函数集,先拓展到无限元素的示性函数集,然后拓展到有界实数集,最有拓展到无界实数集。最后还完成了有依概率收敛到几乎处处收敛的结果论证。