机器学习(六)统计学习理论

本文深入探讨了统计学习理论的基本概念,包括过拟合的原因及其与模型选择和训练数据的关系。通过数学推导介绍了测试误差与真实误差之间的差异,并利用Hoeffding不等式进行了证明。进一步地,文章讨论了VC维作为衡量模型复杂度的重要指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计学习理论的意义

统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。

数学推导

设训练集S={(xi,yi)}mi=1S={(xi,yi)}i=1m,所有的(xi,yi)(xi,yi)独立同分布(Independent and identical distribution),则我们可以定义分类器hθ测试误差(这里指的是在训练集上的误差)为(Empirical Risk):

ε^(hθ)=1mi=1mI(hθ(xi)yi)ε^(hθ)=1m∑i=1mI(hθ(xi)≠yi)

其中,函数I(x)I(x)是一个示性函数,这个误差的定义非常好理解。
接着我们定义分类器hθ的增广误差为(Generalization Risk)
ε(hθ) =P(x,y)(h(x)y)=hθ(x,y)yp(x,y)dxdyε(hθ)=P(x,y)(h(x)≠y) =∫hθ(x,y)≠yp(x,y)dxdy

这里的增广误差是指在真实世界中出现的各种情况的误差的平均。显然,测试误差并不能反映真实情况。那么,测试误差与真实的误差之间有多大的差距呢?前人的研究得到这样的一个结论
P(|ε(hθε^(hθ))|>δ)2e2δ2mP(|ε(hθ−ε^(hθ))|>δ)≤2e−2δ2m

也就是说,真实误差与测试误差之间相差大于δδ的概率小于2e2δ2m2e−2δ2m。上式右边与训练样本数m是相关的。训练样本越多,测试误差与真实误差之间的差距大于某个值的概率会越小。下面我们来证明上式,先看一个引理。

引理:设z1,z2,...,zmz1,z2,...,zmmm个独立随机变量,满足P(zi=1)=ϕ,P(zi=0)=1ϕ  (i=1~m)
定义:

ϕ^=1mi=1mziϕ^=1m∑i=1mzi

则有
P(|ϕ^ϕ|>δ)2e2δ2mP(|ϕ^−ϕ|>δ)≤2e−2δ2m

上式叫做Hoeffiding不等式,Hoeffding不等式是关于一组随机变量均值的概率不等式。证明如下。
证明:定义
zi=I(hθ(xi)yi)zi=I(hθ(xi)≠yi)

P(zi=1)=ε(hθ)P(zi=1)=ε(hθ)


ε^(hθ)=1mi=1mziε^(hθ)=1m∑i=1mzi

所以
P(|ϕ^ϕ|>δ)2e2δ2mP(|ϕ^−ϕ|>δ)≤2e−2δ2m

假设对一个分类器h来说,hθ只有有限个取值,设取值个数为KK。设H={hθ}θ=1K,则

P(hθϵH,|ε(hθ)ε(hθ)^|>δ)2Ke2δ2mP(∃hθϵH,|ε(hθ)−ε(hθ)^|>δ)≤2Ke−2δ2m

P(hθϵH,|ε(hθ)ε(hθ)^|<δ)12Ke2δ2mP(∃hθϵH,|ε(hθ)−ε(hθ)^|<δ)≤1−2Ke−2δ2m

2Ke2r2m=δ2Ke−2r2m=δ,则有
r=1mlog(2Kg)r=1mlog⁡(2Kg)

P(hθϵH,|ε(hθ)ε(hθ)^|<1mlog(2Kg))1δP(∃hθϵH,|ε(hθ)−ε(hθ)^|<1mlog⁡(2Kg))≤1−δ

定理:
假设θ^=argminθ ε^(hθ)θ^=argminθ ε^(hθ), θ=argminθ ε(hθ)θ∗=argminθ ε(hθ),则有

P(|ε(hθ^)ε(hθ)|2r)>1δP(|ε(hθ^)−ε(hθ∗)|≤2r)>1−δ

P(|ε(hθ^)ε(hθ)|1mlog(2Kg))12δP(|ε(hθ^)−ε(hθ∗)|≤1mlog⁡(2Kg))≥1−2δ

这样,我们就可以得到结论:
- 复杂的模型K大,但是ε(hθ)ε(hθ∗)ε(hθ^)ε(hθ^)变小
- 训练样本数m越多越好

补充:
这里写图片描述

VC维(Vapnik-Chervonenkis维)

衡量θθ取无限值的分类器负责度
对m个样本任意的标(标签总数2m2m个),都有一个θθ能把他们分开。满足上述条件的最大的m,叫做hθ的VC维(d=m)。

例子
线性分类器的VC维是d+1d+1,假设样本对是(x,y)(x,y),则d是x的维度。

定理:若假设空间H的VC维为d,则有:

P(|ε(hθ)ε(hθ)^) 8dlog2med+8log4δm>1δP(|ε(hθ)−ε(hθ)^)≤8dlog⁡2med+8log⁡4δm >1−δ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值