CS521 Advanced Algorithm Design 学习笔记（三） Lecture 3 Large deviations bounds and applications

文章介绍了概率论中的几种集中不等式，如马尔科夫不等式和切比雪夫不等式，以及它们在估算随机变量偏离期望值概率上的应用。接着讨论了大偏差界限和中心极限定理，展示了大量独立实验结果趋近正态分布的规律。ChernoffBound作为更强大的不等式，给出了误差的概率上界。此外，文章还提及了中位数估计的问题，指出仅用少量样本无法精确估计中位数，并提出了一种改进的快速排序策略。

Lecture 3 Large deviations bounds and applications

这一节主要讨论集中不等式，即随机变量偏离平均值的概率和程度。

三个越来越强的集中不等式

马尔科夫不等式

$Pr(X\geq kE[X])\leq \frac{1}{k}$

不过，想要导出 $P r (X < c E [X])$ 一类的不等式则是很难的，除非我们知道X有上界。例如，如果 $X∈[0,1]X\in [0,1]$ ，那我们有 $P[X≤cE[X]]≤1−μ1−cμP[X\leq cE[X]]\leq \frac{1-\mu}{1-c\mu}$

切比雪夫不等式

定义方差 $Var(X)=E(X−EX)2=σ2Var(X)=E(X-EX)^2=\sigma^2$ ，则：
$Pr(|X-EX|\geq k\sigma)\leq \frac{1}{k^2}$
用markov不等式即可证明切比雪夫不等式：只需代入 $Y=|X-EX|^2$ 即可。

例如：负载均衡问题

把m个球分给n个桶，记 $X$ 为第一个桶分到的球数，则 $EX=mnEX=\frac{m}{n}$ ，那么有 $Pr(X>2mn)=Pr(∣X−mn∣>mn)Pr(X>2\frac{m}{n})=Pr(|X-\frac{m}{n}|>\frac{m}{n})$ .

记随机变量$Y_i=1 \text{ iff } $第 i 个球落在第一个桶，否则为 0 ，那么$ X=\sum_i Y_i $，$ EX^2=\sum_i EY_i^2+\sum_{i,j} E[Y_i Y_j] $. 根据独立性，$ E[Y_i Y_j]=E[Y_i]E[Y_j] $，$ EY_i=EY_i^{2=\frac{1}{n}$，从而综上有$EX}2=\frac{m}{n}+\frac{m(m-1)}{n^2}\approx \frac{m}{n} $，代入切比雪夫不等式，有：$ Pr(|X-\frac{m}{n}|>\frac{m}{n})\leq \frac{n}{m}$

Large deviation bounds

根据著名的中心极限定理，在适当条件下，大量重复独立实验的结果分布最终会呈现为为正态分布：

设随机变量 $,XnX_1, X_2, \cdots, X_n$ 独立同分布，且具有有限的数学期望和方差 $E(Xi)=μE\left(X_i\right)=\mu$ ， $,n)D\left(X_i\right)=\sigma^2 \neq 0(i=1,2, \cdots, n)$ 。记 $Xˉ=1n∑i=1nXi，ζn=Xˉ−μσ/n\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i ， \zeta_n=\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}$ ，则 $ζn→N(0,1)\zeta_n\rightarrow N(0,1)$ .

Chernoff Bound（中心极限定理的量化版本）

If $X1,X2,…,XnX_{1}, X_{2}, \ldots, X_{n}$ are independent random variables and each $Xi∈[−1,1]X_{i} \in[-1,1]$ . Let $μi=E[Xi]\mu_{i}=E\left[X_{i}\right]$ and $σi2=var⁡[Xi]\sigma_{i}^{2}=\operatorname{var}\left[X_{i}\right]$ . Then $X=∑iXiX=\sum_{i} X_{i}$ satisfies

$\operatorname{Pr}[|X-\mu|>k \sigma] \leq 2 \exp \left(-\frac{k^{2}}{4 n}\right)$

where $μ=∑iμi\mu=\sum_{i} \mu_{i}$ and $σ2=∑iσi2\sigma^{2}=\sum_{i} \sigma_{i}^{2}$

这个版本的证明比较复杂而且不算本质，我们只证下面这个二值变量的版本：

Let $X1,X2,…,XnX_{1}, X_{2}, \ldots, X_{n}$ be independent 0/1-valued random variables and let $pi=E[Xi]p_{i}=\mathbf{E}\left[X_{i}\right]$ , where $0<p_{i}<1$ . Then the sum $X=∑i=1nXiX=\sum_{i=1}^{n} X_{i}$ , which has mean $μ=∑i=1npi\mu=\sum_{i=1}^{n} p_{i}$ , satisfies

$\operatorname{Pr}[X \geq(1+\delta) \mu] \leq\left(c_{\delta}\right)^{\mu}$

where $cδc_{\delta}$ is shorthand for $[eδ(1+δ)(1+δ)]\left[\frac{e^{\delta}}{(1+\delta)^{(1+\delta)}}\right]$ .

证明方法：指数矩法：

We introduce a positive dummy variable $t$ and observe that

$\mathbf{E}[\exp (t X)]=\mathbf{E}\left[\exp \left(t \sum_{i} X_{i}\right)\right]=\mathbf{E}\left[\prod_{i} \exp \left(t X_{i}\right)\right]=\prod_{i} \mathbf{E}\left[\exp \left(t X_{i}\right)\right]$

where the last equality holds because the $X_{i}$ r.v.s are independent. Now,

$\mathbf{E}\left[\exp \left(t X_{i}\right)\right]=\left(1-p_{i}\right)+p_{i} e^{t}$

therefore,

$\begin{aligned} \prod_{i} \mathbf{E}\left[\exp \left(t X_{i}\right)\right]=\prod_{i}\left[1+p_{i}\left(e^{t}-1\right)\right] \leq \\ \prod_{i} \exp \left(p_{i}\left(e^{t}-1\right)\right) =\exp \left(\sum_{i} p_{i}\left(e^{t}-1\right)\right)=\exp \left(\mu\left(e^{t}-1\right)\right) \end{aligned}$

as $\leq e^{x}$ . Finally, apply Markov’s inequality to the random variable $exp⁡(tX)\exp (t X)$ , viz.

$\operatorname{Pr}[X \geq(1+\delta) \mu]=\operatorname{Pr}[\exp (t X) \geq \exp (t(1+\delta) \mu)] \\\leq \frac{\mathbf{E}[\exp (t X)]}{\exp (t(1+\delta) \mu)}=\frac{\exp \left(\left(e^{t}-1\right) \mu\right)}{\exp (t(1+\delta) \mu)}$

using lines (1) and (2) and the fact that $t$ is positive. Since $t$ is a dummy variable, we can choose any positive value we like for it. The right hand size is minimized if $t=ln⁡(1+δ)t=\ln (1+\delta)$ -just differentiate - and this leads to the theorem statement.

比起之前的两个集中不等式，Chernoff bound无疑是更强的，因为其给出的是指数量级的上界，而且根据中心极限定理，指数级的上界是最优的。

关于中位数

在均值之外，我们还想知道，给定[0,1]中的n个数字，我们能否通过部分采样来估计其中位数。

一个hardness的结果是：只用 $o (n)$ 个样本是不够的——我们至少不能在1.1倍内估计中位数。

考虑一个近似的概念：找一个至少大于和小于 $n /2 - n / t$ 个数的数。思路是以一个给定大小随机采样，然后输出样本的中位数。

在基础课上我们都学过快速排序算法，它每次随机选取一个数作为pivot，然后把比它大/小的数排列到其两边。这个算法虽然期望是 $O(nlog⁡n)O(n\log n)$ ，但是由于两边的大小可能差异很大，导致最坏情况很差。一个更好的办法就是通过上面的近似方法选出一个近似中位数，以这个中位数为中心做快排。这个算法的运行时间就会非常接近 $O(nlog⁡n)O(n\log n)$ 了。