Lecture 3 Large deviations bounds and applications
这一节主要讨论集中不等式,即随机变量偏离平均值的概率和程度。
三个越来越强的集中不等式
马尔科夫不等式
Pr(X≥kE[X])≤1k Pr(X\geq kE[X])\leq \frac{1}{k} Pr(X≥kE[X])≤k1
不过,想要导出Pr(X<cE[X])Pr(X<cE[X])Pr(X<cE[X])一类的不等式则是很难的,除非我们知道X有上界。例如,如果X∈[0,1]X\in [0,1]X∈[0,1],那我们有P[X≤cE[X]]≤1−μ1−cμP[X\leq cE[X]]\leq \frac{1-\mu}{1-c\mu}P[X≤cE[X]]≤1−cμ1−μ
切比雪夫不等式
定义方差Var(X)=E(X−EX)2=σ2Var(X)=E(X-EX)^2=\sigma^2Var(X)=E(X−EX)2=σ2,则:
Pr(∣X−EX∣≥kσ)≤1k2
Pr(|X-EX|\geq k\sigma)\leq \frac{1}{k^2}
Pr(∣X−EX∣≥kσ)≤k21
用markov不等式即可证明切比雪夫不等式:只需代入Y=∣X−EX∣2Y=|X-EX|^2Y=∣X−EX∣2即可。
例如:负载均衡问题
把m个球分给n个桶,记XXX为第一个桶分到的球数,则EX=mnEX=\frac{m}{n}EX=nm,那么有Pr(X>2mn)=Pr(∣X−mn∣>mn)Pr(X>2\frac{m}{n})=Pr(|X-\frac{m}{n}|>\frac{m}{n})Pr(X>2nm)=Pr(∣X−nm∣>nm).
记随机变量$Y_i=1 \text{ iff } 第i个球落在第一个桶,否则为0,那么第i个球落在第一个桶,否则为0,那么第i个球落在第一个桶,否则为0,那么X=\sum_i Y_i,,,EX^2=\sum_i EY_i^2+\sum_{i,j} E[Y_i Y_j].根据独立性,. 根据独立性,.根据独立性,E[Y_i Y_j]=E[Y_i]E[Y_j],,,EY_i=EY_i2=\frac{1}{n}$,从而综上有$EX2=\frac{m}{n}+\frac{m(m-1)}{n^2}\approx \frac{m}{n},代入切比雪夫不等式,有:,代入切比雪夫不等式,有:,代入切比雪夫不等式,有:Pr(|X-\frac{m}{n}|>\frac{m}{n})\leq \frac{n}{m}$
Large deviation bounds
根据著名的中心极限定理,在适当条件下,大量重复独立实验的结果分布最终会呈现为为正态分布:
设随机变量 X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn 独立同分布,且具有有限的数 学期望和方差 E(Xi)=μE\left(X_i\right)=\muE(Xi)=μ , D(Xi)=σ2≠0(i=1,2,⋯ ,n)D\left(X_i\right)=\sigma^2 \neq 0(i=1,2, \cdots, n)D(Xi)=σ2=0(i=1,2,⋯,n) 。记 Xˉ=1n∑i=1nXi,ζn=Xˉ−μσ/n\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i , \zeta_n=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}Xˉ=n1∑i=1nXi,ζn=σ/nXˉ−μ ,则ζn→N(0,1)\zeta_n\rightarrow N(0,1)ζn→N(0,1).
Chernoff Bound(中心极限定理的量化版本)
If X1,X2,…,XnX_{1}, X_{2}, \ldots, X_{n}X1,X2,…,Xn are independent random variables and each Xi∈[−1,1]X_{i} \in[-1,1]Xi∈[−1,1]. Let μi=E[Xi]\mu_{i}=E\left[X_{i}\right]μi=E[Xi] and σi2=var[Xi]\sigma_{i}^{2}=\operatorname{var}\left[X_{i}\right]σi2=var[Xi]. Then X=∑iXiX=\sum_{i} X_{i}X=∑iXi satisfies
Pr[∣X−μ∣>kσ]≤2exp(−k24n) \operatorname{Pr}[|X-\mu|>k \sigma] \leq 2 \exp \left(-\frac{k^{2}}{4 n}\right) Pr[∣X−μ∣>kσ]≤2exp(−4nk2)
where μ=∑iμi\mu=\sum_{i} \mu_{i}μ=∑iμi and σ2=∑iσi2\sigma^{2}=\sum_{i} \sigma_{i}^{2}σ2=∑iσi2
这个版本的证明比较复杂而且不算本质,我们只证下面这个二值变量的版本:
Let X1,X2,…,XnX_{1}, X_{2}, \ldots, X_{n}X1,X2,…,Xn be independent 0/1-valued random variables and let pi=E[Xi]p_{i}=\mathbf{E}\left[X_{i}\right]pi=E[Xi], where 0<pi<10<p_{i}<10<pi<1. Then the sum X=∑i=1nXiX=\sum_{i=1}^{n} X_{i}X=∑i=1nXi, which has mean μ=∑i=1npi\mu=\sum_{i=1}^{n} p_{i}μ=∑i=1npi, satisfies
Pr[X≥(1+δ)μ]≤(cδ)μ \operatorname{Pr}[X \geq(1+\delta) \mu] \leq\left(c_{\delta}\right)^{\mu} Pr[X≥(1+δ)μ]≤(cδ)μ
where cδc_{\delta}cδ is shorthand for [eδ(1+δ)(1+δ)]\left[\frac{e^{\delta}}{(1+\delta)^{(1+\delta)}}\right][(1+δ)(1+δ)eδ].
证明方法:指数矩法:
We introduce a positive dummy variable ttt and observe that
E[exp(tX)]=E[exp(t∑iXi)]=E[∏iexp(tXi)]=∏iE[exp(tXi)] \mathbf{E}[\exp (t X)]=\mathbf{E}\left[\exp \left(t \sum_{i} X_{i}\right)\right]=\mathbf{E}\left[\prod_{i} \exp \left(t X_{i}\right)\right]=\prod_{i} \mathbf{E}\left[\exp \left(t X_{i}\right)\right] E[exp(tX)]=E[exp(ti∑Xi)]=E[i∏exp(tXi)]=i∏E[exp(tXi)]
where the last equality holds because the XiX_{i}Xi r.v.s are independent. Now,
E[exp(tXi)]=(1−pi)+piet \mathbf{E}\left[\exp \left(t X_{i}\right)\right]=\left(1-p_{i}\right)+p_{i} e^{t} E[exp(tXi)]=(1−pi)+piet
therefore,
∏iE[exp(tXi)]=∏i[1+pi(et−1)]≤∏iexp(pi(et−1))=exp(∑ipi(et−1))=exp(μ(et−1)) \begin{aligned} \prod_{i} \mathbf{E}\left[\exp \left(t X_{i}\right)\right]=\prod_{i}\left[1+p_{i}\left(e^{t}-1\right)\right] \leq \\ \prod_{i} \exp \left(p_{i}\left(e^{t}-1\right)\right) =\exp \left(\sum_{i} p_{i}\left(e^{t}-1\right)\right)=\exp \left(\mu\left(e^{t}-1\right)\right) \end{aligned} i∏E[exp(tXi)]=i∏[1+pi(et−1)]≤i∏exp(pi(et−1))=exp(i∑pi(et−1))=exp(μ(et−1))
as 1+x≤ex1+x \leq e^{x}1+x≤ex. Finally, apply Markov’s inequality to the random variable exp(tX)\exp (t X)exp(tX), viz.
Pr[X≥(1+δ)μ]=Pr[exp(tX)≥exp(t(1+δ)μ)]≤E[exp(tX)]exp(t(1+δ)μ)=exp((et−1)μ)exp(t(1+δ)μ) \operatorname{Pr}[X \geq(1+\delta) \mu]=\operatorname{Pr}[\exp (t X) \geq \exp (t(1+\delta) \mu)] \\\leq \frac{\mathbf{E}[\exp (t X)]}{\exp (t(1+\delta) \mu)}=\frac{\exp \left(\left(e^{t}-1\right) \mu\right)}{\exp (t(1+\delta) \mu)} Pr[X≥(1+δ)μ]=Pr[exp(tX)≥exp(t(1+δ)μ)]≤exp(t(1+δ)μ)E[exp(tX)]=exp(t(1+δ)μ)exp((et−1)μ)
using lines (1) and (2) and the fact that ttt is positive. Since ttt is a dummy variable, we can choose any positive value we like for it. The right hand size is minimized if t=ln(1+δ)t=\ln (1+\delta)t=ln(1+δ)-just differentiate - and this leads to the theorem statement.
比起之前的两个集中不等式,Chernoff bound无疑是更强的,因为其给出的是指数量级的上界,而且根据中心极限定理,指数级的上界是最优的。
关于中位数
在均值之外,我们还想知道,给定[0,1]中的n个数字,我们能否通过部分采样来估计其中位数。
一个hardness的结果是:只用o(n)o(n)o(n)个样本是不够的——我们至少不能在1.1倍内估计中位数。
考虑一个近似的概念:找一个至少大于和小于n/2−n/tn/2-n/tn/2−n/t个数的数。思路是以一个给定大小随机采样,然后输出样本的中位数。
在基础课上我们都学过快速排序算法,它每次随机选取一个数作为pivot,然后把比它大/小的数排列到其两边。这个算法虽然期望是O(nlogn)O(n\log n)O(nlogn),但是由于两边的大小可能差异很大,导致最坏情况很差。一个更好的办法就是通过上面的近似方法选出一个近似中位数,以这个中位数为中心做快排。这个算法的运行时间就会非常接近O(nlogn)O(n\log n)O(nlogn)了。
文章介绍了概率论中的几种集中不等式,如马尔科夫不等式和切比雪夫不等式,以及它们在估算随机变量偏离期望值概率上的应用。接着讨论了大偏差界限和中心极限定理,展示了大量独立实验结果趋近正态分布的规律。ChernoffBound作为更强大的不等式,给出了误差的概率上界。此外,文章还提及了中位数估计的问题,指出仅用少量样本无法精确估计中位数,并提出了一种改进的快速排序策略。

被折叠的 条评论
为什么被折叠?



