三、统计学习理论:指示损失函数上的大数定理

前面的文章介绍了统计学习的一般模型,并且介绍了关键定理,关键定理中ERP原则一致性与经验风险期望风险的单边收敛是等价的。双边一致收敛比单边一致收敛更严格,后面将介绍双边一致收敛的证明,最后回到单边收敛。

笔者在阅读统计学习理论的时候,充分领略到了Vapnik大师深厚的分析学功底,阅读这种长篇分析学公式是非常困难的,所以本人在想,能不能让证明更加简单点?但是这也不是一个容易的工作。

本文将介绍指示函数集上的一致收敛的条件。
为了区别将前文中的损失函数集{L(x;θ)|θΛ}{L(x;θ)|θ∈Λ}改记为指示损失函数集为:
{I(x;θ)|θΛ}I(x;θ)=0or1{I(x;θ)|θ∈Λ};I(x;θ)=0or1

假设:P(I(X;θ)>0)=pP(I(X;θ)>0)=p则有:

R(θ)=I(x,θ)dF(x)=pRexp(X,θ)=1ni=1nI(xi,θ)(8)(9)(8)R(θ)=∫I(x,θ)dF(x)=p(9)Rexp(X,θ)=1n∑i=1nI(xi,θ)

vn=Rexp(X,θ)vn=Rexp(X,θ),XX代表任意一个样本集,有n个样本。

目标是分析下式成立的条件:

P(supθΛR(θ)Rexp(X,θ)ε)n0(1)P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)→n→∞0(1)

最简单的情况
损失指示函数的参数θΘ={θ1,θ2,..,θl}θ∈Θ={θ1,θ2,..,θl}是有限集合。事实上这就是mm维随机变量上的贝努利大数定理;不过我们这里不关注这个,我们关注的是选定每个θi,

P(R(θi)Rexp(X,θi)ε)(1.1)P(∣R(θi)−Rexp(X,θi)∣≥ε)(1.1)

收敛的界,其实在大数定理我们已经知道他的一个界sn;|s|<1sn;|s|<1,下面用到另外一个界。

Chernoff界:
设有Yi,i=1..nYi,i=1..n独立同分布的随机变量,服从参数为pp的贝努利分布,则有对任意的ε>0有:

P(pvn>ε)P(vnp>ε)<eε2n2<eε2n3(10)(11)(10)P(p−vn>ε)<e−ε2n2(11)P(vn−p>ε)<e−ε2n3

应用Chernoff界,就有:

P(R(θi)Rexp(X,θi)ε)<2eε2n2;θiΘP(∣R(θi)−Rexp(X,θi)∣≥ε)<2e−ε2n2;∀θi∈Θ

于是得到下面的不等式:
P(supθΘR(θ)Rexp(X,θ)ε)i=1mP(R(θi)Rexp(X,θi)ε)2meε2n2=2e(ln(m)nε22)n(12)(13)(14)(2)(12)P(supθ∈Θ∣R(θ)−Rexp(X,θ)∣≥ε)≤∑i=1mP(∣R(θi)−Rexp(X,θi)∣≥ε)(13)≤2me−ε2n2(14)=2e(ln(m)n−ε22)n(2)

注意到0<m<0<m<∞,所哟必然有limnln(m)n=0limn→∞ln(m)n=0,于是(2)式成立。

定理1:在有限指示损失函数集{L(x;θ)|θΘ}{L(x;θ)|θ∈Θ}下面的不等式成立:

P(supθΘR(θ)Rexp(X,θ)ε)<2e(ln(m)nε22)nP(supθ∈Θ∣R(θ)−Rexp(X,θ)∣≥ε)<2e(ln(m)n−ε22)n

推论1: 在有限指示损失函数集{L(x;θ)|θΛ}{L(x;θ)|θ∈Λ}上,下式恒成立,

limnP(supθΛR(θ)Rexp(X,θ)ε)=0limn→∞P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)=0

由上面的讨论,我们知道了在有限的指示损失函数集上,统计学习模型是ERP原则一致的

推广思路:
m=m=∞将导致limnln(m)nlimn→∞ln(m)n无意义,显然不能直接推广到无限的指示损失函数集上。
不过仔细检查一下上面的证明,就可以发现两件事:

  1. R(θi)R(θi)Rexp(X,θi)Rexp(X,θi)是不太敏感的,对于某些参数表达式R(θi)Rexp(X,θi)∣R(θi)−Rexp(X,θi)∣的值可能相同。
  2. 若如上一条所说,我们将可以缩小(2)(2)式中的mm,将这些R(θi)Rexp(X,θi)值相同的合并。

从这条思路出发,我们需要考虑一下统计学习模型,参数在什么情况下导致R(θi)Rexp(X,θi)∣R(θi)−Rexp(X,θi)∣的值相同?
假定统计学习模型中样本的分类器是l(x,θ)l(x,θ),且有以下指示损失函数

I(x,θ)={0,1,ifl(x,θ)0ifl(x,θ)<0I(x,θ)={0,ifl(x,θ)≥01,ifl(x,θ)<0

对于任意的含有nn个样本的集合,最多有2n方中划分方法,记2X={S|SX}2X={S|S⊂X},可以对XX的所有子集S进行编号。
         从样本集划分的角度来看,任意nn个样本,未必能按照全部可能的方式划分开来,二维平面上的直线,最多只能将三个样本完全区分开,四个样本有14种分法而不是16种。这种将样本区分开来的能力,是统计学习模型的一个很重要的参数。记NΛ(n)是模型能将指定样本HH划分开的数量的最大值。


先做些基础准备工作:

定义Λ(Si)={θl(x,θ)0,xSi;l(x,θ)<0,xSi;θΛ}

若某个Λ(Si)=ϕΛ(Si)=ϕ则表示统计学习模型不存在这样分割。

由上面的定义可知,I(x,θ1)=I(x,θ2)θ1,θ1ΛSixXi=1..NΛ(n)I(x,θ1)=I(x,θ2)∀θ1,θ1∈ΛSi,x∈X,i=1..NΛ(n).

因此属于同一个分割的所有参数,表达式R(θ)Rexp(X,θ)∣R(θ)−Rexp(X,θ)∣的值相同,即下面的引理成立:

引理1: 给定样本X,θi1,θi2Λ(Si)i=1..NΛ(n)X,∀θi1,θi2∈Λ(Si),i=1..NΛ(n)下式成立:

R(θi1)Rexp(X,θi1)=R(θi2)Rexp(X,θi2)∣R(θi1)−Rexp(X,θi1)∣=∣R(θi2)−Rexp(X,θi2)∣

到这儿,我们已经将无限指示损失函数集与样本样本联系起来,得到了R(θ)Rexp(X,θ)∣R(θ)−Rexp(X,θ)∣只有限个值。


下面估计无限指示损失函数集(1.1)(1.1)式的界。
我们仍然可以应用Chernoff界,任意给定的θΛθ∗∈Λ

P(R(θ)Rexp(X,θ)ε)<2eε2n2,P(∣R(θ∗)−Rexp(X,θ∗)∣≥ε)<2e−ε2n2,

因此有:
P(supθΛR(θ)Rexp(X,θ)ε)NΛ(n)i=1P(R(θi)Rexp(X,θi)εX),θiΛ(Si)Λ2NΛ(n)eε2n2=2exp((ln(NΛ(n))nε22)n)(3)P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)≤∑i=1NΛ(n)P(∣R(θi)−Rexp(X,θi)∣≥ε∣X),θi∈Λ(Si)⊂Λ≤2NΛ(n)e−ε2n2=2exp((ln(NΛ(n))n−ε22)n)(3)

记:HΛvc(n)=ln(NΛ(X))HvcΛ(n)=ln(NΛ(X)),HΛvc(n)HvcΛ(n)在文献中称为VC熵,(3)(3)可以表示为:

P(supθΘR(θ)Rexp(X,θ)ε)2exp((HΛvc(n)nε22)n)(4)P(supθ∈Θ∣R(θ)−Rexp(X,θ)∣≥ε)≤2exp((HvcΛ(n)n−ε22)n)(4)

上面的讨论实际上证明了下面的定理:
定理2:在无穷指示损失函数集{L(x;θ)|θΛ}{L(x;θ)|θ∈Λ}下面的不等式成立:

P(supθΛR(θ)Rexp(X,θ)ε)<2exp((HΛvc(n)nε22)n)P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)<2exp((HvcΛ(n)n−ε22)n)


推论2: 在无穷指示损失函数集{L(x;θ)|θΛ}{L(x;θ)|θ∈Λ}上,下式:

limnP(supθΛR(θ)Rexp(X,θ)ε)=0limn→∞P(supθ∈Λ∣R(θ)−Rexp(X,θ)∣≥ε)=0

成立的充分条件是:limnHΛvc(n)n=0limn→∞HvcΛ(n)n=0

写一段废话
这个结论与Vapnik大师在统计学习理论书中略有不同,Vapvik的界是:2exp((HannΛ(2n)nε22)n)2exp((HannΛ(2n)n−ε22)n) ,其中HΛann(2n)HannΛ(2n)退火熵,而且有HΛann(2n)<HΛvc(2n)HannΛ(2n)<HvcΛ(2n),但是同时又有:HΛvc(n)<HΛvc(2n)HvcΛ(n)<HvcΛ(2n),那个结论更好难分清楚。

不过要想弄清楚增长函数的性质,Vapnik大师的在书里给出了证明,其中用到了退火熵。

话又说回来,很多时候,想读懂一本书,要抽出其主线,把主线弄清楚,其余内容容易把我们引入歧途。此系列的博客其实只想弄清楚期望风险与经验风险双边一致的证明过程,也就是读懂只是想看懂泛函上的大数定理,其他的不重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值