本篇博客旨在补充李航老师在《统计学习方法》第一章中关于Hoeffding’s Inequality的证明,明白了它 的由来才能对泛化误差上界有更深刻的认识。
温馨提示:最好在电脑端阅读,因为手机屏幕太小,所书写的公式无法施展才华。但是如果可以容忍一丢丢瑕疵的话,也可以在手机上阅读。
先导内容
一、 泛化能力(generalization ability)
泛化能力表示学习方法学习到的模型对未知数据的预测能力。
二、 泛化误差(generalization error)
泛化误差表示用学习到的模型对未知数据进行预测的误差,定义如下:(假设学到的模型为 f ^ \widehat{f} f
,L为损失函数)
R e x p ( f ^ ) = E p [ L ( Y , f ^ ( X ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y \begin{aligned} R_{exp}(\widehat{f}) & = E_p[L(Y,\widehat{f}(X)] \\ & = \int_{X\times Y} L(y,\widehat{f}(x))P(x,y)dxdy \end{aligned} Rexp(f
)=Ep[L(Y,f
(X)]=∫X×YL(y,f
(x))P(x,y)dxdy 泛化误差也就是所学模型的误差期望值(即期望风险),反映了学习方法的泛化能力。
三、泛化误差上界(generalization error bound)
对于泛化能力的分析通常是根据泛化误差上界来确定的,因为它代表的是泛化能力的下界,也就是所谓的保底值,如果保底值能够提升,那么模型的整体泛化能力就能够得到提升。
(注意:因为泛化误差定义式中的损失函数所求得的值为负数,所以它必定存在一个上界)
泛化误差上界的定义如下:对于二类分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , . . . , f d } \mathcal{F}=\{f_1,f_2,...,f_d\} F={
f1,f2,...,fd} 时,对任意一个函数 f ∈ F f\in\mathcal{F} f∈F,至少以概率 1 − δ ( 0 < δ < 1 ) 1-\delta\ (0<\delta<1) 1−δ (0<δ<1),使得以下不等式成立:
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f) \leq\ \widehat{R}(f) \ +\ \varepsilon(d,N,\delta) R(f)≤ R
(f) + ε(d,N,δ)
其中,
ε ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})} ε(d,N,δ)=2N1(logd+logδ1)
不等式中左侧的 R ( f ) R(f) R(f) 是泛化误差,右侧的即是泛化误差上界,其中的 R ^ ( f ) \widehat{R}(f) R
(f) 是训练过程中的误差,而 ε ( d , N , δ ) \varepsilon(d,N,\delta) ε(d,N,δ) 相当于一个纠正量,是 N N N 的单调递减函数,当 N N N 趋近无穷时趋向 0,同时它也是 l o g d logd logd 阶的函数,假设空间包含的函数越多时, d d d 的值越大,即它的值也越大。
值得注意的是,该不等式是根据霍夫丁不等式推导而来,但是霍夫丁不等式同样需要证明是正确的才能进行使用。
重点来了!霍夫丁不等式的证明
霍夫丁不等式的证明遵循下图中的证明过程,需要先证明马尔可夫不等式、切比雪夫不等式、切诺夫界和霍夫丁引理,才能够对霍夫丁不等式进行证明。
一、Markov’s Inequality(马尔可夫不等式)
- 定理:设 Z ≥ 0 Z \ge 0 Z≥0 为一个非负的随机变量,对任意的 t > 0 t>0 t>0 ,有:
P ( Z ≥ t ) ≤ E ( Z ) t P(Z \ge t)\ \le \ \frac{E(Z)}{t} P(Z≥t) ≤ tE(Z) - 证明如下:
P ( Z ≥ t ) = E [ 1 { Z ≥ t } ] ≤ E [ Z t 1 { Z ≥ t } ] ≤ E ( Z ) t P(Z \ge t) = E[1_{\{Z \ge t\}} ]\le E[\frac{Z}{t}1_{\{Z \ge t\}} ] \le \frac{E(Z)}{t} P(Z≥t)=E[1{ Z≥t}]≤E[tZ1{ Z≥t}]≤tE(Z)
注意: 1 { Z ≥ t } 1_{\{Z \ge t\}} 1{ Z≥t} 表示的是事件 Z ≥ t Z\ge t Z≥t 发生的时候为 1 1 1,否则为 0 0 0。所以当随机情况下, 1 { Z ≥ t } ≤ 1 1_{\{Z \ge t\}} \le 1 1{ Z≥t}≤1。
二、Chebyshev’s Inequality(切比雪夫不等式)
-
定理:设 Z Z Z 是一个属于 R R R 集合的随机变量,且均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,有:
P ( ∣ Z − μ ∣ ≥ σ t ) ≤ 1 t 2 P(|Z - \mu|\ \ge\ \sigma t)\ \le \ \frac{1}{t^2} P(∣Z−μ∣ ≥ σt) ≤ t21 -
证明如下:
P ( ∣ Z − μ ∣ ≥ σ t ) = P [ ( Z − μ ) 2 ≥ σ 2 t 2 ] ≤ E [ ( Z − μ ) 2 ] σ 2 t 2 = σ 2 σ 2 t 2 = 1 t 2 \begin{aligned} P(|Z - \mu|\ \ge\ \sigma t) & = \color{red}P[\ (Z-\mu)^2 \ge \ \sigma^2 t^2\ ] \\ & \color{red} \le \frac{E[\ (Z-\mu)^2\ ]}{ \sigma^2 t^2} \color{black} = \frac{ \sigma^2}{\sigma^2 t^2} =\frac{1}{t^2} \end{aligned} P(∣Z−μ∣ ≥ σt)=P[ (Z−μ)2≥ σ2t2 ]≤σ2t2E[ (Z−μ)2 ]=σ2t2σ2=t21
注意:红色部分使用的是马尔可夫不等式 ! ! !
三、Chernoff’s bound(切诺夫界)
- 设 Z Z Z 是一个属于 R R R 集合的随机变量,任意的 t > 0 t>0 t>0 ,有:
P ( Z ≥ t ) ≤ e − s t M Z ( s ) ( s > 0 ) P(Z \ge t)\ \le \ e^{-st} M_Z(s) \ \ \ \ \ \ (s>0) P(Z≥t) ≤ e−stMZ(s) (s>0) - 证明如下:对任意的 s > 0 s>0 s>0,
P ( Z ≥ t ) = P ( s Z ≥ s t ) = P ( e s Z ≥ e s t ) ≤ E ( e s Z ) e s t = M Z ( s ) e s t \begin{aligned} P(Z \ge t) & = P(sZ\ge st) \\ & = \color{red}P(e^{sZ}\ge e^{st}) \\ &\color{red} \le \frac{E(e^{sZ})}{e^{st}} \color{black} = \frac{M_Z(s)}{e^{st}} \end{aligned} P(Z≥t)=P(sZ≥st)=P(esZ≥est)≤estE(esZ)=estMZ(s)
注意:红色部分使用的是马尔可夫不等式 ! ! !
补充内容: M Z ( s ) M_Z(s) MZ(s) 表示的是矩量母函数(moment-generating function),当满足特定条件时, E ( e s Z ) = M Z ( s ) E(e^{sZ})=M_Z(s) E(esZ)=MZ(s) 。
四、Hoeffding’s lemma(霍夫丁引理)
-
定理:设随机变量 Z ∈ [ a , b ] Z\in [\ a, b\ ] Z∈[ a,b ],对任意的 λ ∈ R \lambda \in R λ∈R,有:(这里使用 e x p ( x ) exp(x) exp(