概念
在概率论中,切比雪夫不等式(英语:Chebyshev’s Inequality)显示了随机变量的“几乎所有”值都会“接近”平均。该不等式对任何分布的数据(X>0)都使用。用公式表示为:
对于任意 b > 0 b>0 b>0, 有
p ( ∣ X − E ( X ) ∣ ⩾ b ) ⩽ V a r ( X ) b 2 p(|X-E(X)| \geqslant b) \leqslant \frac{Var(X)}{b^{2}} p(∣X−E(X)∣⩾b)⩽b2Var(X)
这个不等式以量化的方式来描述“几乎所有”是多少,“接近”又有多接近:
- 与平均相差2个标准差以上的值,数目不多于 1 4 \frac{1}{4} 41
- 与平均相差3个标准差以上的值,数目不多于 1 9 \frac{1}{9} 91
- 与平均相差4个标准差以上的值,数目不多于 1 16 \frac{1}{16} 161
- ……
- 与平均相差k个标准差以上的值,数目不多于 1 k 2 \frac{1}{k^{2}} k21
举例
若一班有36个学生,而在一次考试中,平均分是80分,标准差是10分,我们便可得出结论:少于50分(与平均相差3个标准差以上)的人,数目不多于4(=36 / 9)个。
证明
几何证明摘自:知乎姚岑卓
几何证明
再给出直观证明之前,我们需要引入示性函数(indicator function) I A I_{A} IA,示性函数只有在事件A成立时才返回1,否则为0.
我们需要使用的一个引理是,当事件是以下形式,如 A = { X > a } A=\{X > a\} A={X>a}时,示性函数的期望可以表示事件发生的概率,即 E ( I A ) = P ( A ) E(I_{A})=P(A) E(IA)=P(A). 当然,A的形式不仅限于 A = { X > a } A=\{X > a\} A={X>a}, A = { X < a } A=\{X < a\} A={X<a}或 A = { ∣ X ∣ > a } A=\{|X| > a\} A={∣X∣>a}时都是成立的.
引入示性函数后,我们就可以把概率问题转移到更直观的空间上.举例而言,我们知道,对于任意的非负x和b, I x ⩾ b ⩽ x b I_{x \geqslant b} \leqslant \frac{x}{b} Ix⩾b⩽bx. 从几何的角度而言,即 x b \frac{x}{b} bx在第一象限永远不会低于 I x ⩾ b I_{x \geqslant b} Ix⩾b,如下图所示:
因此,将自变量x变为随机变量X,以上不等式也成立,再对不等式两边取均值,我们可以得到Markov不等式,即 p ( x ⩾ b ) ⩽ E ( X ) b p(x \geqslant b) \leqslant \frac{E(X)}{b} p(x⩾b)⩽bE(X).
对于Chebyshev不等式,我们也可以用类似的示性函数来几何直观证明.对于任意的x,a和b, I ∣ x − a ∣ ⩾ b ⩽ ( x − a ) 2 b 2 I_{|x-a| \geqslant b} \leqslant \frac{(x-a)^{2}}{b^{2}} I∣x−a∣⩾b⩽b2(x−a)2.
如图所示,二次函数的值在任意点都不会低于示性函数.其中,两坐标轴的交点其实为(a,0),而两条虚线对应的x轴的值分别为a-b与a+b.重复上述讨论,将自变量x变为随机变量X,以上不等式也成立,再对不等式两边取均值,同时将a选择为随机变量X的均值 E ( X ) E(X) E(X),我们可以得到Chebyshev不等式:
p ( ∣ X − E ( X ) ∣ ⩾ b ) ⩽ V a r ( X ) b 2 p(|X-E(X)| \geqslant b) \leqslant \frac{Var(X)}{b^{2}} p(∣X−E(X)∣⩾b)⩽b2Var(X)
不等式证明
∵ μ = E ( X ) , f ( x ) > 0 , ( x − μ ) 2 ⩾ b 2 \because \mu = E(X),f(x) >0,(x-\mu)^{2} \geqslant b^{2} ∵μ=E(X),f(x)>0,(x−μ)2⩾b2
∴ V a r ( x ) = E ( ( x − μ ) 2 ) = ∫ − ∞ + ∞ ( x − μ ) 2 f ( x ) d x ⩾ ∫ − ∞ μ − b ( x − μ ) 2 f ( x ) d x + ∫ μ + b + ∞ ( x − μ ) 2 f ( x ) d x ⩾ ∫ − ∞ μ − b b 2 f ( x ) d x + ∫ μ + b + ∞ b 2 f ( x ) d x ⩾ b 2 P ( ∣ X − μ ∣ ⩾ b ) \therefore \begin{aligned} Var(x) &= E((x-\mu)^{2}) \\ &= \int_{- \infty}^{+ \infty} (x-\mu)^{2}f(x)dx \\ &\geqslant \int_{- \infty}^{\mu-b} (x-\mu)^{2}f(x)dx + \int_{\mu+b}^{+ \infty} (x-\mu)^{2}f(x)dx \\ &\geqslant \int_{- \infty}^{\mu-b} b^{2}f(x)dx + \int_{\mu+b}^{+ \infty} b^{2}f(x)dx \\ &\geqslant b^{2} P(|X-\mu| \geqslant b) \end{aligned} ∴Var(x)=E((x−μ)2)=∫−∞+∞(x−μ)2f(x)dx⩾∫−∞μ−b(x−μ)2f(x)dx+∫μ+b+∞(x−μ)2f(x)dx⩾∫−∞μ−bb2f(x)dx+∫μ+b+∞b2f(x)dx⩾b2P(∣X−μ∣⩾b)