无偏方差公式推导

最新推荐文章于 2025-10-20 06:14:21 发布

原创最新推荐文章于 2025-10-20 06:14:21 发布 · 2.5k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #概率论 #算法

概率论专栏收录该内容

1 篇文章

订阅专栏

本文介绍了在实际样本有限时，如何通过无偏估计方法修正样本方差，以使其更接近总体方差。通过多次抽取样本计算均值，以及推导出无偏方差公式，确保在统计分析中的准确性。

众所周知，方差公式为： $S2=1n∑i=1n(xi−xˉ)2S^2=\frac1n\sum^n_{i=1}(x_i-\bar x)^2$ 但是实际上，在很多情况下我们无法获取所有的样本，更多时候其实只能获取总样本中的一部分样本，而通过这部分样本算出的样本方差和使用总样本计算出的总体方差之间肯定存在误差，也就是说这个样本方差是有偏的，因此，我们希望对样本方差进行修正，使样本方差是总体方差的一个无偏估计。

无偏估计

我们对总样本进行多次抽取，并分别计算平均值 $xˉ1,xˉ2,⋯\bar x_1,\bar x_2,\cdots$ ，然后把这些值再做平均，记为 $E(Xˉ)E(\bar X)$ ，这样随着抽取次数增多，这个期望值会越来越精确，并且接近总体均值 $μ\mu$ ，如果满足 $E(Xˉ)=μE(\bar X)=\mu$ ，那么这就是一个无偏估计，其中每次计算的样本均值就是一个随机变量。

无偏估计的意义是：在多次重复下，它们的平均值接近所估计的参数的真值

无偏方差

假设样本均值为 $Xˉ\bar X$ ，总体均值为 $μ\mu$ ，那么我们希望： $E(S2)=E(1n∑(xi−Xˉ)2)=1n∑(xi−μ)2=σ2E(S^2)=E\left(\frac1n\sum(x_i-\bar X)^2\right)=\frac1n\sum(x_i-\mu)^2=\sigma^2$
我们接着往下推： $E(1n∑(xi−Xˉ)2)=E(1n∑((xi−μ)−(Xˉ−μ))2)=E(1n∑((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2))=E(1n∑(xi−μ)2−2n∑(xi−μ)(Xˉ−μ)+1n∑(Xˉ−μ)2)\begin{align} E\left(\frac1n\sum(x_i-\bar X)^2\right)&=E\left(\frac1n\sum((x_i-\mu)-(\bar X-\mu))^2\right)\\ &=E\left(\frac1n\sum\left((x_i-\mu)^2-2(x_i-\mu)(\bar X-\mu)+(\bar X-\mu)^2\right)\right)\\ &=E\left(\frac1n\sum(x_i-\mu)^2-\frac2n\sum(x_i-\mu)(\bar X-\mu)+\frac1n\sum(\bar X-\mu)^2\right) \end{align}$

因为 $1n∑(xi−μ)=1n∑xi−μ=Xˉ−μ\frac1n\sum(x_i-\mu)=\frac1n\sum x_i-\mu=\bar X-\mu$ 和 $1n∑Xˉ=Xˉ\frac 1n\sum\bar X=\bar X$ ，我们可以继续简化：
$E(1n∑(xi−Xˉ)2)=E(1n∑(xi−μ)2−2n∑(xi−μ)(Xˉ−μ)+1n∑(Xˉ−μ)2)=E(1n∑(xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2)=E(1n∑(xi−μ)2)−E((Xˉ−μ)2)≤σ2\begin{align} E\left(\frac1n\sum(x_i-\bar X)^2\right)&=E\left(\frac1n\sum(x_i-\mu)^2-\frac2n\sum(x_i-\mu)(\bar X-\mu)+\frac1n\sum(\bar X-\mu)^2\right)\\ &=E\left(\frac1n\sum(x_i-\mu)^2-2(\bar X-\mu)^2+(\bar X-\mu)^2\right)\\ &=E\left(\frac1n\sum(x_i-\mu)^2\right)-E\left((\bar X-\mu)^2\right)\le\sigma^2 \end{align}$
可以发现，当 $Xˉ=μ\bar X=\mu$ 的时候，也就是取全部样本的时候， $E(S2)=σ2E(S^2)=\sigma^2$ ，这样是不行的，所以我们要进行修正，我们接着上式继续化简： $E(1n∑(xi−μ)2)−E((Xˉ−μ)2)=Var(x)−Var(Xˉ)E\left(\frac1n\sum(x_i-\mu)^2\right)-E\left((\bar X-\mu)^2\right)=Var(x)-Var(\bar X)$

对于 $Var(Xˉ)Var(\bar X)$ 我们进行如下处理：

$Var(Xˉ)=Var(1n∑xi)=1n2Var(∑xi)Var(\bar X)=Var\left(\frac1n\sum x_i\right)=\frac1{n^2}Var\left(\sum x_i\right)$
由于样本之间是相互独立的，所以 $Va r (A + B) = Va r (A) + Va r (B)$ ，因此 $1n2Var(∑xi)=1nVar(x)\frac1{n^2}Var\left(\sum x_i\right)=\frac1nVar(x)$

所以 $Var(x)−Var(Xˉ)=n−1nVar(x)=n−1nσ2=E(S2)Var(x)-Var(\bar X)=\frac{n-1}nVar(x)=\frac{n-1}n\sigma^2=E(S^2)$

所以，我们只要对样本方差 $S^2$ 乘以 $nn−1\frac n{n-1}$ 就可以得到无偏估计，即无偏方差： $nn−1S2=nn−11n∑(xi−Xˉ)2=1n−1∑(xi−Xˉ)2\frac n{n-1}S^2=\frac n{n-1}\frac 1n\sum(x_i-\bar X)^2=\frac1{n-1}\sum(x_i-\bar X)^2$