Hoeffding不等式简介

Hoeffding不等式是机器学习和统计学中的重要工具,它给出了独立随机变量之和的概率界限。本文详细介绍了Hoeffding不等式的证明过程,特别讨论了在Bernoulli分布下的应用,展示了其提供的概率界限比Chebyshev不等式更为精确。
部署运行你感兴趣的模型镜像

1 Hoeffding不等式

Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。

它的思想与Markov不等式有些类似,我们先给出它的形式:

Hoeffding不等式Y1,…,YnY_1,\ldots,Y_nY1,,Yn为独立观测,E(Yi)=0E(Y_i)=0E(Yi)=0ai≤Yi≤bia_i\leq Y_i\leq b_iaiYibi。对于ϵ>0\epsilon\gt 0ϵ>0∀t>0\forall t \gt 0t>0,有
P(∑i=1nYi≥ϵ)≤e−tϵ∏i=1net2(bi−ai)2/8 P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8} P(i=1nYiϵ)etϵi=1net2(biai)2/8

2 证明

首先,∀t>0\forall t\gt 0t>0,利用Markov不等式,我们有
P(∑i=1nYi≥ϵ)=P(et∑i=1nYi≥etϵ)≤e−tϵE(et∑i=1nYi)=e−tϵ∏i=1nE(etYi) \begin{aligned} &P\left(\sum_{i=1}^{n} Y_i \geq \epsilon\right)\\ = & P\left(e^{t\sum_{i=1}^{n} Y_i} \geq e^{t\epsilon}\right)\\ \leq & e^{-t\epsilon} E\left(e^{t\sum_{i=1}^{n} Y_i} \right)\\ = & e^{-t\epsilon} \prod_{i=1}^{n} E\left(e^{t Y_i} \right) \end{aligned} ==P(i=1nYiϵ)P(eti=1nYietϵ)etϵE(eti=1nYi)etϵi=1nE(etYi)

而又由于ai≤Yi≤bia_i\leq Y_i\leq b_iaiYibi,我们可将YiY_iYi表示为Yi=αbi+(1−α)aiY_i=\alpha b_i+(1-\alpha)a_iYi=αbi+(1α)ai,其中α=Yi−aibi−ai\alpha=\dfrac{Y_i-a_i}{b_i-a_i}α=biaiYiai,利用Jensen不等式以及指数函数的凸性,有
etY≤Yi−aibi−aietbi+bi−Yibi−aietai e^{tY}\leq \dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i} etYbiaiYiaietbi+biaibiYietai

两边取期望后,再构造一个函数g(u)g(u)g(u),可得
E(etY)≤−aibi−aietbi+bibi−aietai=eg(u) E\left(e^{tY}\right) \leq -\dfrac{a_i}{b_i-a_i} e^{tb_i} + \dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)} E(etY)biaiaietbi+biaibietai=eg(u)

其中u=t(bi−ai)u=t(b_i-a_i)u=t(biai)g(u)=−γu+log⁡(1−γ+γeu)g(u)=-\gamma u+\log(1-\gamma+\gamma e^u)g(u)=γu+log(1γ+γeu)γ=−aibi−ai\gamma=-\dfrac{a_i}{b_i-a_i}γ=biaiai

我们可知g(0)=g′(0)=0g(0)=g'(0)=0g(0)=g(0)=0,并且∀u>0\forall u\gt 0u>0,有g′′(u)≤1/4g''(u)\leq 1/4g(u)1/4

现在,我们需要用到Taylor定理:若ggg为光滑函数,则∃ξ∈(0,u)\exists \xi\in(0,u)ξ(0,u),使得g(u)=g(0)+g′(0)u+12g′′(ξ)u2g(u)=g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2g(u)=g(0)+g(0)u+21g(ξ)u2。利用Taylor定理,必定∃ξ∈(0,u)\exists \xi\in (0,u)ξ(0,u),使得
g(u)=g(0)+g′(0)u+12g′′(ξ)u2=12g′′(ξ)u2≤u28=t2(bi−ai)28 \begin{aligned} &g(u)\\ =& g(0)+g'(0)u+\dfrac{1}{2}g''(\xi) u^2\\ =& \dfrac{1}{2}g''(\xi) u^2\\ \leq & \dfrac{u^2}{8}\\ =& \dfrac{t^2(b_i-a_i)^2}{8} \end{aligned} ===g(u)g(0)+g(0)u+21g(ξ)u221g(ξ)u28u28t2(biai)2

代回之后,我们有
E(etYi)≤eg(u)≤et2(bi−ai)2/8 E\left(e^{tY_i}\right) \leq e^{g(u)}\leq e^{t^2(b_i-a_i)^2/8} E(etYi)eg(u)et2(biai)2/8

代回最上式,得证。

3 Bernoulli分布情形

这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:

假设X1,…,Xn∼Bernoulli(p)X_1,\ldots,X_n\sim \text{Bernoulli}(p)X1,,XnBernoulli(p),记Xˉn=n−1∑i=1nXi\bar{X}_n = n^{-1}\sum_{i=1}^{n}X_iXˉn=n1i=1nXi,则∀ϵ>0\forall \epsilon \gt 0ϵ>0,有
P(∣Xˉn−p∣>ϵ)≤2e−2nϵ2 P(|\bar X_n - p|\gt \epsilon) \leq 2e^{-2n\epsilon^2} P(Xˉnp>ϵ)2e2nϵ2

证明:令Yi=(1/n)(Xi−p)Y_i=(1/n)(X_i-p)Yi=(1/n)(Xip),有E(Yi)=0E(Y_i)=0E(Yi)=0,且a≤Yi≤ba\leq Y_i\leq baYib,其中a=−p/na=-p/na=p/nb=(1−p)/nb=(1-p)/nb=(1p)/n。直接应用Hoeffding不等式,有∀ϵ>0\forall \epsilon\gt 0ϵ>0∀t>0\forall t \gt 0t>0:
P(Xˉn−p≥ϵ)=P(∑i=1nYi≥ϵ)≤e−tϵ∏i=1net2/(8n2) P(\bar{X}_n -p \geq \epsilon) = P(\sum_{i=1}^{n} Y_i \geq \epsilon) \leq e^{-t\epsilon} \prod_{i=1}^{n} e^{t^2/(8n^2)} P(Xˉnpϵ)=P(i=1nYiϵ)etϵi=1net2/(8n2)

由于上式对于任意t>0t \gt 0t>0都成立,取t=4nϵt=4n\epsilont=4nϵ,得到
P(Xˉn−p≥ϵ)≤e−4nϵ2∏i=1ne2ϵ2=e−2nϵ2 P(\bar{X}_n -p \geq \epsilon) \leq e^{-4n\epsilon^2} \prod_{i=1}^{n} e^{2\epsilon^2} = e^{-2n\epsilon^2} P(Xˉnpϵ)e4nϵ2i=1ne2ϵ2=e2nϵ2

同理,若令Yi=(1/n)(p−Xi)Y_i=(1/n)(p-X_i)Yi=(1/n)(pXi),则有
P(p−Xˉn≥ϵ)=P(Xˉn−p≤−ϵ)≤e−2nϵ2 P(p-\bar{X}_n \geq \epsilon) =P(\bar{X}_n -p \leq -\epsilon) \leq e^{-2n\epsilon^2} P(pXˉnϵ)=P(Xˉnpϵ)e2nϵ2

将两个不等式合并后,得证。

4 应用

我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。

假设X1,…,Xn∼Bernoulli(p)X_1,\ldots,X_n\sim \text{Bernoulli}(p)X1,,XnBernoulli(p),取n=100n=100n=100ϵ=0.2\epsilon=0.2ϵ=0.2,使用Chebyshev不等式,我们有
P(∣Xˉn−p∣>ϵ)≤p(1−p)/nϵ2≤0.0625 P(|\bar X_n - p|\gt \epsilon) \leq \dfrac{p(1-p)/n}{\epsilon^2}\leq 0.0625 P(Xˉnp>ϵ)ϵ2p(1p)/n0.0625

而使用第3节中的Hoeffding不等式,有
P(∣Xˉn−p∣>ϵ)≤0.00067 P(|\bar X_n - p|\gt \epsilon) \leq 0.00067 P(Xˉnp>ϵ)0.00067

可以看到,Hoeffding不等式的上界要小得多。

您可能感兴趣的与本文相关的镜像

Wan2.2-T2V-A5B

Wan2.2-T2V-A5B

文生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值