偏差与方差权衡
当模型对数据的拟合程度不够时,预测值与真实值的误差较大,此时偏差很大,当模型对数据的拟合得很好时,预测值与真实值的误差较小,但此时方差很大。
训练误差与一般误差
定义训练误差(经验风险ERM):
ξ^(hθ)=1m∑iI(hθ(xi)≠yi)
θ^=argminθξ^(hθ)),这个求参数θ估计值的过程我们称为经验风险最小化定义一般误差
ξ(hθ)=p(x,y)∈D(h(x)≠y),其中p(x,y)∈D表示服从D分布
联合界定理
假设
A1,A2,⋯,Ak 是随机事件(不一定独立),那么以下等式成立:
p(A1∪A2∪⋯∪Ak)≤p(A1+A2+⋯+Ak)hoeffding不等式
假设z1,z2⋯,zm是独立同分布的伯努利分布,即p(zi=1)=ϕ
令ϕ^=1m∑izi,给定Υ,hoeffding不等式如下:
p(∣ϕ^−ϕ∣>Υ)≤2exp(−2Υ2m)
令假设类H={h1,h2⋯,hk},其中hi是输入映射到输出的函数,不含参数,k是假设空间的大小,即假设函数的个数
h^=argminhi∈Hξ^(hi)
选定hj∈H,定义:
zi=1mI(hj(xi)≠yi),也就是zi是独立同分布的伯努利分布,可以得到:
p(zi=1)=ξ(hj),ξ^(hj)=1m∑izi=1m∑mi=1I(hj(xi)≠yi)
我们需要证明下面两个猜想:
1. 训练误差是一般误差的很好近似 ①
2. 一般误差存在上界ξ(h^) ②证明①猜想(给定m,Υ,求概率):
- p(∣ξ(hj)−ξ^(hj)∣>Υ)≤2exp(−2Υ2m)
假设随机事件Aj定义为:∣ξ(hj)−ξ^(hj)∣>Υ
p(Aj)≤2exp(−2Υ2m)
p(∃hj∈H,∣ξ(hj)−ξ^(hj)∣>Υ)=p(A1∪A2⋯∪Ak)
≤∑ip(Aj)
≤∑i2exp(−2Υ2m)
=2kexp(−2Υ2m)
p(∄hj∈H,∣ξ(hj)−ξ^(hj)∣>Υ)
=p(∀hj∈H,∣ξ(hj)−ξ^(hj)∣≤Υ)≥1−2kexp(−2Υ2m)- 给定Υ,σ,求样本集合m,其中
σ=2kexp(−2Υ2m)
那么当m满足:m≥12Υ2log2kσ ,可以得到:
p(∀hj∈H,∣ξ(hj)−ξ^(hj)∣≤Υ)≥1−σ- 给定m,σ,求Υ
那么当Υ=12mlog2kσ−−−−−−−−√,可以得到:
p(∀hj∈H,∣ξ(hj)−ξ^(hj)∣≤Υ)≥1−σ证明猜想②
h^=argminh∈Hξ^(h),h∗=argminh∈Hξ(h)
ξ(h^)≤ξ^(h^)+Υ≤ξ^(h∗)+Υ≤ξ(h∗)+Υ+Υ=ξ(h∗)+2Υ
p(ξ(h^)≤minh∈Hξ(h)+212mlog2kσ−−−−−−−−√)≥1−σ,当Υ=12mlog2kσ−−−−−−−−√上式成立
吴恩达机器学习之经验风险最小化
最新推荐文章于 2025-07-08 09:21:00 发布