二、机器学习理论起点 ,模型及关键定理

本文探讨了极大似然估计方法及经验风险最小化(ERP)原则在统计学习中的应用,通过数学推导详细解释了ERP原则一致性的含义及其必要条件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

考察一下极大似然估计,这是数理统计里面经典的参数估计模型。
设有样本xi,yi,i=1..n,假设模型为y=wx+b+ε,εN(0,σ2)。要估计参数w,b 把模型改变一下就有:

ε=ywxb=f(y,x;w,b)N(0,σ2)
由此得可以到ε的分布函数,记为ϕ(y,x;w,b).
改记函数:L(y,x;w,b)=ln(ϕ(yi,xi;w,b))
定义似然函数:
l(y⃗ ,x⃗ ;w,b)=1ni=1nL(yi,xi;w,b)

最小化l(y⃗ ,x⃗ ;w,b)就得到了wb的参数值w^b^,于是我们得到了一个统计模型y=w^x+b^.

考察一下这个模型,它是一个最优化模型:

infw,bRl(y⃗ ,x⃗ ;w,b)=infw,bR1ni=1nL(yi,xi;w,b)

这里并不是要介绍极大似然方法的解法,而是更一般的来看看这个最优化模型:
1、 X,Y是两个随机变量,为了方便描述以后就统一记为X;
2、 l(y⃗ ,x⃗ ;w,b)是定义在随机变量上的带参数了函数,其实还是一个随机变量,以后记为L(x;θ)
3、目标函数是1nni=1L(xi;θ),是L(x;θ)在样本上的均值。

在机器学习领域,将L(x;θ)称为损失函数,它是一簇函数,一般而言,它度量模型因变量预测值与观测量之间差异的损失,损失函数包含了模型信息包括模型参数,并且通常要求是非负的;将 E(L(x;θ))称为期望风险,记为R(θ),要估计期望风险必须知道X的分布函数,但是通常这是未知的。将1nni=1L(xi;θ)称为经验风险,记为Remp(Xn,θ),计算经验风险不需要知道分布。

一般的统计学习或者机器学的问题是求解最小化经验风险:infθΛRemp(Xn,θ),求得θ,这一方法称为经验风险最小化原则(ERP原则).

仿照大数定理改写一下极大似然估计的目标函数,希望下式成立,这样机器学习到的参数是一致的:

infθΛRemp(Xn,θ)pinfθΛR(θ)

上面的表达式损失函数集{L(x;θ)|θΛ}如果只有有限个元素,就将回到以前的普通的大数定理,这个时候上式必然成立。若损失函数集有无穷上多个元素,如下问题还成立吗?什么条件下成立?
arg(limn(infθΛRemp(Xn,θ)))=?arg(infθΛ(R(θ))=θ^limnRemp(Xn,θ^)=?R(θ^(1)

如果问号不能去掉,机器可能学习到的是错误的参数。

定义:infθΛRemp(Xn,θ)pinfθΛR(θ),称为ERP原则一致的

还有一种情况,若函数集{L(x;θ)|θΛ}包含这样一个函数ϕ(x)infθΛL(x;θ)>ϕ(x),则必然导致

limn(infθΛRemp(Xn,θ))=infθΛR(θ
ϕ(x)取得。这种情况称为ERP方法平凡一致的,与损失函数集中的其他函数没有关系,所有问题到此为止。(1)依赖于函数集中的个别函数,需要刨除这种平凡的情况,因此需要对{L(x;θ)|θΛ}做出一些约束。

定义:对函数集{L(x;θ)|θΛ}定义其子集:

Λ(c)={aL(x;a)dF(x)>c;aΛ}

如果对函数集的任意非空子集Λ(c),cR都有:
infθnΛ(c)Remp(Xn,θ)pinfθΛ(c)R(θ)

成立,则称ERM原则对函数集{L(x;θ)|θΛ}和概率分布函数是非平凡一致的。

说句废话,非平凡一致排除了函数集中个别函数外,仍然能保持ERP原则是一致的。
下文中如果提到ERP原则一致的,都指非平凡的

那么什么条件下ERP方法是一致的呢?显然首先得要求|L(x;θ)dF(x)|<真实风险发散了就什么都不要谈了。


Vapnik和Chervonenkis 两位大神在1989年就为我们找到了ERP原则是一致的得充要条件。

关键定理: 设函数集满足|L(x;θ)dF(x)|<,则有ERP原则一致性的充要条件是:

      经验风险Rexp(Xn,θn)在函数集{L(x;θ)|θΛ}上如下意义的收敛于实际风险R(θ):

limnP(supθΛ(R(θ)Remp(Xn,θ))>ε)=0;ε>0(2)

有没有嗅到大数定理的影子?关键定理告诉我们要保证学习一致性,先要保证(2)成立,而2左边是函数集{L(x;θ)|θΛ}上的泛函。
因此泛函上的大数定理是统计学习理论基础,这次真的升级了,从抽样调查升级到了统计学习。

要想直观的看清关键定理,先弄明白三件事:
1、R(θ)=L(x;θ)dF(x)<,中的概率分布F(x)只要求保证R(θ)<,没有其他要求;
2、对于任意一个指定的F(x),R(θ)是参数θ的函数,不是随机变量;
3、Remp(Xn,θ)=1nni=1L(xi;θ)是随机变量,因为xi是随机变量。


关键定理证明


先做些准备工作:

由于R(θ)<,可以假定aR(θ)b,对a,b做如下分割:
令:a1=a,am=b,ai+1ai<ε2i=1..m1
根据有限覆盖定理,存在m<.满足分割要求
这种分割之下,有:
           Λ(b)=Λ(an)..Λ(ak+1)Λ(ak)..Λ(a1)=Λ(a)=Λ
定义:Λ^k=Λ(ak)/Λ(ak+1),Λ^m=Λm
           Λ^k={θ|θΛ(ak+1),θΛ(ak)},k=1..m1
则有:
1、Λ^kΛ^j=ϕ,ij;mi=1Λ^i=Λ
2、supθΛ^kR(θ)=ak+1,infθΛ^kR(θ)=ak
3、supθΛ^kR(θ)infθΛ(ak+1)R(θ)=ak+1<ak+ε2=infθΛ(ak)R(θ)+ε2(2)
注意(2)式下文证明中两次用到,这是sup 转变为inf的关键。

:

对于任意的ak,定义事件Tk:infθΛ(ak)Rexp(Xn,θ)<infθΛ(ak)R(θ)ε2
ERP原则一致性要求,有infθΛ(ak)Rexp(Xn,θ)pinfθΛ(ak)R(θ)
得到limnP(Tk)=0

T=ni=1Ti,则有limnP(T)ni=1limnP(Tk)=0

定义事件A:supθΛ(R(θ)Remp(Xn,θ))>ε发生了,
则必然存在某个Λ^k,θΛ^k使得:supR(θ)infRexp(Xn,θ)>ε.
因为:
           supR(θ)<infθΛ(ak+1)R(θ)<infθΛ(ak)R(θ)+ε2
           infRexp(Xn,θ)=infθΛ(ak)Rexp(Xn,θ)
因此有
           infθΛ(ak)R(θ)+ε2>infθΛ(ak)Rexp(Xn,θ)+ε
这意味着事件T发生了,即A事件发生蕴含T事件发生。因此有:
           limnP(A)limnP(T)=0
即:
           limnP(supθΛ(R(θ)Rexp(Xn,θ))>ε)=0;ε>0


接着证明:”:”

           若limnP(supθΛ(R(θ)Rexp(Xn,θ))>ε)=0;ε>0成立:
则对于任意的θΛ^k,i=1..n都有:
           limnP(supθΛ^k(R(θ)Rexp(Xn,θ))>ε)=0;ε>0
得到:
            limnP(supθΛ^kRθ)infθΛ^kRexp(Xn,θ)>ε)=0;ε>0
应用前面提到的(2)式得到:
           limnP(infθΛ(ak)Rθ)infθΛ(ak)Rexp(Xn,θ)>ε2)=0;ε>0(3)
至此,完成了单边一致的证明。


下面证明严格一致性也成立:
假定时间发生了事件A2:infθΛ(ak)Rexp(Xn,θ)infθΛ(ak)R(θ)>ε

则必有:
           infθΛ(ak)Rexp(Xn,θ)>infθΛ(ak)R(θ)+ε=R(θ)+ε2,θΛ^(ak)

得到:
           Rexp(Xn,θ)>R(θ)+ε2θΛ^(ak)
根据大数定理,必然有:
           Rexp(Xn,θ)pR(θ)
所以下式成立:
           limnP(infθΛ(ak)Rexp(Xn,θ)infθΛ(ak)R(θ)>ε)=0;ε>0(4)
根据(3)(4)两式,有:
           limnP(infθΛ(ak)Rθ)infθΛ(ak)Rexp(Xn,θ)>ε2)=0;ε>0
即:
           infθΛRexp(Xn,θ)pinfθΛRθ)


证明完毕。

在此,我们看到了ERP原则一致性,等价于单边一致收敛:

P(supθΛ(R(θ)Rexp(Xn,θ))ε)n0(5)

但是,到此还没有讨论到单边一致收敛对损失函数有何要求。关键定理是整个统计学习理论的重要一步,它将问题进行了转化。

后面从双边一致性开始讨论,双边一致形式如下:

P(supθΛR(θ)Rexp(Xn,θ)ε)n0(6)

概率P是函数集{L(x;θ)|θΛ}上的泛函,所以这是泛函上的大数定理,问题是:什么时候成立?
Vapnik大师由简单到复杂,一步一步证明,其中知识贯通了概率论,测度论,展示了精湛的分析功力,顶礼膜拜一下这位大师。
这位大师将损失函数集{L(x;θ)|θΛ}从最简单的有限个元素示性函数集,先拓展到无限元素的示性函数集,然后拓展到有界实数集,最有拓展到无界实数集。最后还完成了有依概率收敛到几乎处处收敛的结果论证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值