1 Hoeffding不等式
Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。
它的思想与Markov不等式有些类似,我们先给出它的形式:
Hoeffding不等式:Y1,…,YnY_1,\ldots,Y_nY1,…,Yn为独立观测,E(Yi)=0E(Y_i)=0E(Yi)=0,ai≤Yi≤bia_i\leq Y_i\leq b_iai≤Yi≤bi。对于ϵ>0\epsilon\gt 0ϵ>0,∀t>0\forall t \gt 0∀t>0,有
P(∑i=1nYi≥ϵ)≤e−tϵ∏i=1net2(bi−ai)2/8
P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8}
P(i=1∑nYi≥ϵ)≤e−tϵi=1∏net2(bi−ai)2/8
2 证明
首先,∀t>0\forall t\gt 0∀t>0,利用Markov不等式,我们有
P(∑i=1nYi≥ϵ)=P(et∑i=1nYi≥etϵ)≤e−tϵE(et∑i=1nYi)=e−tϵ∏i=1nE(etYi)
\begin{aligned}
&P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\
= & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\
\leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\
= & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right)
\end{aligned}
=≤=P(i=1∑nYi≥ϵ)P(et∑i=1nYi≥etϵ)e−tϵE(et∑i=1nYi)e−tϵi=1∏nE(etYi)
而又由于ai≤Yi≤bia_i\leq Y_i\leq b_iai≤Yi≤bi,我们可将YiY_iYi表示为Yi=αbi+(1−α)aiY_i=\alpha b_i+(1-\alpha)a_iYi=αbi+(1−α)ai,其中α=Yi−aibi−ai\alpha=\dfrac{Y_i-a_i}{b_i-a_i}α=bi−aiYi−ai,利用Jensen不等式以及指数函数的凸性,有
etY≤Yi−aibi−aietbi+bi−Yibi−aietai
e^{tY}\leq \dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i}
etY≤bi−aiYi−aietbi+bi−aibi−Yietai
两边取期望后,再构造一个函数g(u)g(u)g(u),可得
E(etY)≤−aibi−aietbi+bibi−aietai=eg(u)
E\left(e^{tY}\right) \leq -\dfrac{a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)}
E(etY)≤−bi−aiaietbi+bi−aibietai=eg(u)
其中u=t(bi−ai)u=t(b_i-a_i)u=t(bi−ai),g(u)=−γu+log(1−γ+γeu)g(u)=-\gamma u+\log(1-\gamma+\gamma e^u)g(u)=−γu+log(1−γ+γeu),γ=−aibi−ai\gamma=-\dfrac{a_i}{b_i-a_i}γ=−bi−aiai。
我们可知g(0)=g′(0)=0g(0)=g'(0)=0g(0)=g′(0)=0,并且∀u>0\forall u\gt 0∀u>0,有g′′(u)≤1/4g''(u)\leq 1/4g′′(u)≤1/4。
现在,我们需要用到Taylor定理:若ggg为光滑函数,则∃ξ∈(0,u)\exists \xi\in(0,u)∃ξ∈(0,u),使得g(u)=g(0)+g′(0)u+12g′′(ξ)u2g(u)=g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2g(u)=g(0)+g′(0)u+21g′′(ξ)u2。利用Taylor定理,必定∃ξ∈(0,u)\exists \xi\in (0,u)∃ξ∈(0,u),使得
g(u)=g(0)+g′(0)u+12g′′(ξ)u2=12g′′(ξ)u2≤u28=t2(bi−ai)28
\begin{aligned}
&g(u)\\
=& g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\\
=& \dfrac{1}{2}g''(\xi) u^2\\
\leq & \dfrac{u^2}{8}\\
=& \dfrac{t^2(b_i-a_i)^2}{8}
\end{aligned}
==≤=g(u)g(0)+g′(0)u+21g′′(ξ)u221g′′(ξ)u28u28t2(bi−ai)2
代回之后,我们有
E(etYi)≤eg(u)≤et2(bi−ai)2/8
E\left(e^{tY_i}\right) \leq e^{g(u)}\leq e^{t^2(b_i-a_i)^2/8}
E(etYi)≤eg(u)≤et2(bi−ai)2/8
代回最上式,得证。
3 Bernoulli分布情形
这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:
假设X1,…,Xn∼Bernoulli(p)X_1,\ldots,X_n\sim \text{Bernoulli}(p)X1,…,Xn∼Bernoulli(p),记Xˉn=n−1∑i=1nXi\bar{X}_n = n^{-1}\sum_{i=1}^{n}X_iXˉn=n−1∑i=1nXi,则∀ϵ>0\forall \epsilon \gt 0∀ϵ>0,有
P(∣Xˉn−p∣>ϵ)≤2e−2nϵ2
P(|\bar X_n - p|\gt \epsilon) \leq 2e^{-2n\epsilon^2}
P(∣Xˉn−p∣>ϵ)≤2e−2nϵ2
证明:令Yi=(1/n)(Xi−p)Y_i=(1/n)(X_i-p)Yi=(1/n)(Xi−p),有E(Yi)=0E(Y_i)=0E(Yi)=0,且a≤Yi≤ba\leq Y_i\leq ba≤Yi≤b,其中a=−p/na=-p/na=−p/n,b=(1−p)/nb=(1-p)/nb=(1−p)/n。直接应用Hoeffding不等式,有∀ϵ>0\forall \epsilon\gt 0∀ϵ>0,∀t>0\forall t \gt 0∀t>0:
P(Xˉn−p≥ϵ)=P(∑i=1nYi≥ϵ)≤e−tϵ∏i=1net2/(8n2)
P(\bar{X}_n -p \geq \epsilon) = P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2/(8n^2)}
P(Xˉn−p≥ϵ)=P(i=1∑nYi≥ϵ)≤e−tϵi=1∏net2/(8n2)
由于上式对于任意t>0t \gt 0t>0都成立,取t=4nϵt=4n\epsilont=4nϵ,得到
P(Xˉn−p≥ϵ)≤e−4nϵ2∏i=1ne2ϵ2=e−2nϵ2
P(\bar{X}_n -p \geq \epsilon) \leq e^{-4n\epsilon^2} \prod_{i=1}^{n} e^{2\epsilon^2} = e^{-2n\epsilon^2}
P(Xˉn−p≥ϵ)≤e−4nϵ2i=1∏ne2ϵ2=e−2nϵ2
同理,若令Yi=(1/n)(p−Xi)Y_i=(1/n)(p-X_i)Yi=(1/n)(p−Xi),则有
P(p−Xˉn≥ϵ)=P(Xˉn−p≤−ϵ)≤e−2nϵ2
P(p-\bar{X}_n \geq \epsilon) =P(\bar{X}_n -p \leq -\epsilon) \leq e^{-2n\epsilon^2}
P(p−Xˉn≥ϵ)=P(Xˉn−p≤−ϵ)≤e−2nϵ2
将两个不等式合并后,得证。
4 应用
我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。
假设X1,…,Xn∼Bernoulli(p)X_1,\ldots,X_n\sim \text{Bernoulli}(p)X1,…,Xn∼Bernoulli(p),取n=100n=100n=100,ϵ=0.2\epsilon=0.2ϵ=0.2,使用Chebyshev不等式,我们有
P(∣Xˉn−p∣>ϵ)≤p(1−p)/nϵ2≤0.0625
P(|\bar X_n - p|\gt \epsilon) \leq \dfrac{p(1-p)/n}{\epsilon^2}\leq 0.0625
P(∣Xˉn−p∣>ϵ)≤ϵ2p(1−p)/n≤0.0625
而使用第3节中的Hoeffding不等式,有
P(∣Xˉn−p∣>ϵ)≤0.00067
P(|\bar X_n - p|\gt \epsilon) \leq 0.00067
P(∣Xˉn−p∣>ϵ)≤0.00067
可以看到,Hoeffding不等式的上界要小得多。
Hoeffding不等式是机器学习和统计学中的重要工具,它给出了独立随机变量之和的概率界限。本文详细介绍了Hoeffding不等式的证明过程,特别讨论了在Bernoulli分布下的应用,展示了其提供的概率界限比Chebyshev不等式更为精确。
3534

被折叠的 条评论
为什么被折叠?



