大数定理、切比雪夫不等式及其推导
大数定律
弱大数定律(Weak Law of Large Numbers, WLLN)
弱大数定律指出,当试验次数 nnn 趋向无穷大时,样本平均值 Xnˉ\bar{X_n}Xnˉ 与期望值 μ\muμ 之间的差异以概率收敛于 0。数学上表示为:
∀ϵ>0,limn→∞P(∣1n∑i=1nXi−μ∣≥ϵ)=0 \forall \epsilon > 0, \lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| \ge \epsilon \right) = 0 ∀ϵ>0,n→∞limP(n1i=1∑nXi−μ≥ϵ)=0
其中,Xnˉ=1n∑i=1nXi\bar{X_n} = \frac{1}{n} \sum_{i=1}^n X_iXnˉ=n1∑i=1nXi,XiX_iXi 是独立同分布的随机变量,其期望值为 μ\muμ。
补充与说明
- 收敛方式的明确说明:弱大数定律描述的是以概率收敛(convergence in probability),即对于任意正数 ϵ\epsilonϵ,样本平均值与期望值的偏差概率在 n→∞n \to \inftyn→∞ 时收敛到 0。
- 适用条件的补充:为了应用弱大数定律,通常要求随机变量 {Xi}\{X_i\}{Xi} 独立同分布,且有有限期望 E[Xi]=μ\mathbb{E}[X_i] = \muE[Xi]=μ。如果需要用切比雪夫不等式证明,则进一步要求方差有限(Var(Xi)<∞\mathrm{Var}(X_i)<\inftyVar(Xi)<∞)。
强大数定律(Strong Law of Large Numbers, SLLN)
强大数定律更强,它指出样本平均值 Xnˉ\bar{X_n}Xnˉ 几乎必然收敛于期望值 μ\muμ。数学上表示为:
P(limn→∞Xnˉ=μ)=1 P\left( \lim_{n \to \infty} \bar{X_n} = \mu \right) = 1 P(n→∞limXnˉ=μ)=1
这意味着随着试验次数 nnn 的增加,样本平均值 Xnˉ\bar{X_n}Xnˉ 会以概率 1 收敛于期望值 μ\muμ。
补充与说明
- 收敛方式的明确说明:强大数定律描述的是几乎处处收敛(almost sure convergence),即样本平均值收敛到期望值的事件发生概率为 1。
- 适用条件的补充:强大数定律的经典形式(如科尔莫哥洛夫强大数定律)通常要求随机变量 {Xi}\{X_i\}{Xi} 独立同分布,且 E[∣X1∣]<∞\mathbb{E}[|X_1|] < \inftyE[∣X1∣]<∞,才能保证几乎必然收敛。
- 弱大数与强大数的区别:两者的本质区别在于收敛方式的强度。弱大数定律保证样本平均值以概率的意义逼近期望值,而强大数定律则更严格,要求在几乎所有样本路径上逼近期望值。
切比雪夫不等式
切比雪夫不等式(Chebyshev’s Inequality)是概率论中的重要工具,用于描述随机变量偏离其期望值的概率界限。它不依赖于随机变量的具体分布,因此具有很强的通用性。
切比雪夫不等式的定义
切比雪夫不等式适用于任何具有有限期望值和方差的随机变量。具体来说,设 XXX 是一个随机变量,具有期望值 E[X]=μ\mathbb{E}[X] = \muE[X]=μ 和方差 Var(X)=σ2\mathrm{Var}(X) = \sigma^2Var(X)=σ2。那么,对于任意正数 ϵ>0\epsilon > 0ϵ>0,切比雪夫不等式表示为:
P(∣X−μ∣≥ϵ)≤σ2ϵ2 P\left( |X - \mu| \ge \epsilon \right) \le \frac{\sigma^2}{\epsilon^2} P(∣X−μ∣≥ϵ)≤ϵ2σ2
切比雪夫不等式的推导
我们可以从 Markov 不等式出发推导切比雪夫不等式。Markov 不等式是:
P(∣X∣≥a)≤E[∣X∣]a P(|X| \ge a) \le \frac{\mathbb{E}[|X|]}{a} P(∣X∣≥a)≤aE[∣X∣]
对于非负随机变量 Y=(X−μ)2Y = (X - \mu)^2Y=(X−μ)2,我们有:
P((X−μ)2≥ϵ2)≤E[(X−μ)2]ϵ2 P\left( (X - \mu)^2 \ge \epsilon^2 \right) \le \frac{\mathbb{E}[(X - \mu)^2]}{\epsilon^2} P((X−μ)2≥ϵ2)≤ϵ2E[(X−μ)2]
由于 E[(X−μ)2]=σ2\mathbb{E}[(X - \mu)^2] = \sigma^2E[(X−μ)2]=σ2,得到:
P((X−μ)2≥ϵ2)≤σ2ϵ2 P\left( (X - \mu)^2 \ge \epsilon^2 \right) \le \frac{\sigma^2}{\epsilon^2} P((X−μ)2≥ϵ2)≤ϵ2σ2
注意到 P((X−μ)2≥ϵ2)=P(∣X−μ∣≥ϵ)P\left( (X - \mu)^2 \ge \epsilon^2 \right) = P\left( |X - \mu| \ge \epsilon \right)P((X−μ)2≥ϵ2)=P(∣X−μ∣≥ϵ),所以:
P(∣X−μ∣≥ϵ)≤σ2ϵ2 P\left( |X - \mu| \ge \epsilon \right) \le \frac{\sigma^2}{\epsilon^2} P(∣X−μ∣≥ϵ)≤ϵ2σ2
补充与说明
- 切比雪夫不等式的背景意义:切比雪夫不等式的最大优势在于它适用于任意分布(只要随机变量有有限方差)。但它给出的界通常较为宽松,对于特定分布(如正态分布)可以找到更精确的估计方法。
- 与 Markov 不等式的关系:切比雪夫不等式是 Markov 不等式的一个特例,通过将偏差平方视为非负随机变量来应用 Markov 不等式得出。
应用案例
示例 1:抛硬币与弱大数定律
问题背景:假设我们有一枚均匀硬币,每次抛掷出现正面的概率 p=0.5p=0.5p=0.5。记 XiX_iXi 为第 iii 次抛掷时是否出现正面(正面记为 1,反面记为 0),则 E[Xi]=0.5\mathbb{E}[X_i] = 0.5E[Xi]=0.5。
应用:根据弱大数定律,当抛掷次数 nnn 越来越大时,
1n∑i=1nXi→P0.5. \frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} 0.5. n1i=1∑nXiP0.5.
即实验平均值(正面频率)以概率收敛到 0.5。
示例 2:测量物理量与强大数定律
问题背景:在物理实验中,我们对某个固定物理量(如温度)进行多次独立测量。设每次测量的误差随机分布,且期望值为 0。
应用:根据强大数定律,当测量次数 nnn 增加时,
Xnˉ=1n∑i=1nXi→a.s.μ, \bar{X_n} = \frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{\text{a.s.}} \mu, Xnˉ=n1i=1∑nXia.s.μ,
即样本平均值几乎必然收敛到真值。
示例 3:切比雪夫不等式在抽样估计中的应用
问题背景:已知随机变量 XXX 的方差为 σ2\sigma^2σ2,我们希望估计样本均值的精度。
应用:根据切比雪夫不等式,对于 nnn 个独立同分布的样本,样本均值 Xnˉ\bar{X_n}Xnˉ 偏离期望值 μ\muμ 的概率界为:
P(∣Xnˉ−μ∣≥ϵ)≤σ2nϵ2. P\left( |\bar{X_n} - \mu| \ge \epsilon \right) \le \frac{\sigma^2}{n\epsilon^2}. P(∣Xnˉ−μ∣≥ϵ)≤nϵ2σ2.
当 nnn 增大时,这个概率界逐渐缩小。
示例 4:投骰子与切比雪夫不等式
问题背景:投掷公平骰子,取值为 {1,2,3,4,5,6}\{1,2,3,4,5,6\}{1,2,3,4,5,6}。单次投掷的期望 μ=3.5\mu = 3.5μ=3.5,方差 σ2=3512\sigma^2 = \frac{35}{12}σ2=1235。
应用:假设投掷 nnn 次,记总点数为 SnS_nSn,则
P(∣Sn−3.5n∣≥ϵ)≤35n12ϵ2. P\left( |S_n - 3.5n| \ge \epsilon \right) \le \frac{35n}{12\epsilon^2}. P(∣Sn−3.5n∣≥ϵ)≤12ϵ235n.