泛化误差上界的证明【内含霍夫丁不等式(Hoeffding‘s Inequality)的证明】

本篇博客旨在补充李航老师在《统计学习方法》第一章中关于Hoeffding’s Inequality的证明,明白了它 的由来才能对泛化误差上界有更深刻的认识。

温馨提示:最好在电脑端阅读,因为手机屏幕太小,所书写的公式无法施展才华。但是如果可以容忍一丢丢瑕疵的话,也可以在手机上阅读。


先导内容

一、 泛化能力(generalization ability)

  泛化能力表示学习方法学习到的模型对未知数据的预测能力。

二、 泛化误差(generalization error)

  泛化误差表示用学习到的模型对未知数据进行预测的误差,定义如下:(假设学到的模型为 f ^ \widehat{f} f ,L为损失函数)
R e x p ( f ^ ) = E p [ L ( Y , f ^ ( X ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y \begin{aligned} R_{exp}(\widehat{f}) & = E_p[L(Y,\widehat{f}(X)] \\ & = \int_{X\times Y} L(y,\widehat{f}(x))P(x,y)dxdy \end{aligned} Rexp(f )=Ep[L(Y,f (X)]=X×YL(y,f (x))P(x,y)dxdy 泛化误差也就是所学模型的误差期望值(即期望风险),反映了学习方法的泛化能力。

三、泛化误差上界(generalization error bound)

 对于泛化能力的分析通常是根据泛化误差上界来确定的,因为它代表的是泛化能力的下界,也就是所谓的保底值,如果保底值能够提升,那么模型的整体泛化能力就能够得到提升。
注意:因为泛化误差定义式中的损失函数所求得的值为负数,所以它必定存在一个上界)
在这里插入图片描述
 泛化误差上界的定义如下:对于二类分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , . . . , f d } \mathcal{F}=\{f_1,f_2,...,f_d\} F={ f1,f2,...,fd} 时,对任意一个函数 f ∈ F f\in\mathcal{F} fF,至少以概率 1 − δ   ( 0 < δ < 1 ) 1-\delta\ (0<\delta<1) 1δ (0<δ<1),使得以下不等式成立:
R ( f ) ≤   R ^ ( f )   +   ε ( d , N , δ ) R(f) \leq\ \widehat{R}(f) \ +\ \varepsilon(d,N,\delta) R(f) R (f) + ε(d,N,δ)
其中,
ε ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})} ε(d,N,δ)=2N1(logd+logδ1)
 不等式中左侧的 R ( f ) R(f) R(f) 是泛化误差,右侧的即是泛化误差上界,其中的 R ^ ( f ) \widehat{R}(f) R (f) 是训练过程中的误差,而 ε ( d , N , δ ) \varepsilon(d,N,\delta) ε(d,N,δ) 相当于一个纠正量,是 N N N 的单调递减函数,当 N N N 趋近无穷时趋向 0,同时它也是 l o g d logd logd 阶的函数,假设空间包含的函数越多时, d d d 的值越大,即它的值也越大。
 值得注意的是,该不等式是根据霍夫丁不等式推导而来,但是霍夫丁不等式同样需要证明是正确的才能进行使用。


重点来了!霍夫丁不等式的证明

 霍夫丁不等式的证明遵循下图中的证明过程,需要先证明马尔可夫不等式、切比雪夫不等式、切诺夫界和霍夫丁引理,才能够对霍夫丁不等式进行证明。
在这里插入图片描述

一、Markov’s Inequality(马尔可夫不等式)

  • 定理:设 Z ≥ 0 Z \ge 0 Z0 为一个非负的随机变量,对任意的 t > 0 t>0 t>0 ,有:
    P ( Z ≥ t )   ≤   E ( Z ) t P(Z \ge t)\ \le \ \frac{E(Z)}{t} P(Zt)  tE(Z)
  • 证明如下:
    P ( Z ≥ t ) = E [ 1 { Z ≥ t } ] ≤ E [ Z t 1 { Z ≥ t } ] ≤ E ( Z ) t P(Z \ge t) = E[1_{\{Z \ge t\}} ]\le E[\frac{Z}{t}1_{\{Z \ge t\}} ] \le \frac{E(Z)}{t} P(Zt)=E[1{ Zt}]E[tZ1{ Zt}]tE(Z)

注意 1 { Z ≥ t } 1_{\{Z \ge t\}} 1{ Zt} 表示的是事件 Z ≥ t Z\ge t Zt 发生的时候为 1 1 1,否则为 0 0 0。所以当随机情况下, 1 { Z ≥ t } ≤ 1 1_{\{Z \ge t\}} \le 1 1{ Zt}1


二、Chebyshev’s Inequality(切比雪夫不等式)

  • 定理:设 Z Z Z 是一个属于 R R R 集合的随机变量,且均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,有:
    P ( ∣ Z − μ ∣   ≥   σ t )   ≤   1 t 2 P(|Z - \mu|\ \ge\ \sigma t)\ \le \ \frac{1}{t^2} P(Zμ  σt)  t21

  • 证明如下:

P ( ∣ Z − μ ∣   ≥   σ t ) = P [   ( Z − μ ) 2 ≥   σ 2 t 2   ] ≤ E [   ( Z − μ ) 2   ] σ 2 t 2 = σ 2 σ 2 t 2 = 1 t 2 \begin{aligned} P(|Z - \mu|\ \ge\ \sigma t) & = \color{red}P[\ (Z-\mu)^2 \ge \ \sigma^2 t^2\ ] \\ & \color{red} \le \frac{E[\ (Z-\mu)^2\ ]}{ \sigma^2 t^2} \color{black} = \frac{ \sigma^2}{\sigma^2 t^2} =\frac{1}{t^2} \end{aligned} P(Zμ  σt)=P[ (Zμ)2 σ2t2 ]σ2t2E[ (Zμ)2 ]=σ2t2σ2=t21
注意:红色部分使用的是马尔可夫不等式 ! ! !


三、Chernoff’s bound(切诺夫界)

  • Z Z Z 是一个属于 R R R 集合的随机变量,任意的 t > 0 t>0 t>0 ,有:
    P ( Z ≥ t )   ≤   e − s t M Z ( s )        ( s > 0 ) P(Z \ge t)\ \le \ e^{-st} M_Z(s) \ \ \ \ \ \ (s>0) P(Zt)  estMZ(s)      (s>0)
  • 证明如下:对任意的 s > 0 s>0 s>0
    P ( Z ≥ t ) = P ( s Z ≥ s t ) = P ( e s Z ≥ e s t ) ≤ E ( e s Z ) e s t = M Z ( s ) e s t \begin{aligned} P(Z \ge t) & = P(sZ\ge st) \\ & = \color{red}P(e^{sZ}\ge e^{st}) \\ &\color{red} \le \frac{E(e^{sZ})}{e^{st}} \color{black} = \frac{M_Z(s)}{e^{st}} \end{aligned} P(Zt)=P(sZst)=P(esZest)estE(esZ)=estMZ(s)

注意:红色部分使用的是马尔可夫不等式 ! ! !

补充内容 M Z ( s ) M_Z(s) MZ(s) 表示的是矩量母函数(moment-generating function),当满足特定条件时, E ( e s Z ) = M Z ( s ) E(e^{sZ})=M_Z(s) E(esZ)=MZ(s)


四、Hoeffding’s lemma(霍夫丁引理)

  • 定理:设随机变量 Z ∈ [   a , b   ] Z\in [\ a, b\ ] Z[ a,b ],对任意的 λ ∈ R \lambda \in R λR,有:(这里使用 e x p ( x ) exp(x) exp(

评论 29
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值