为什么样本方差的分母是n-1?
最简单的解释,因为计算均值已经用了n个数的平均来做估计,因此在求方差时,只有n-1个数和均值信息是不相关的。第n个数可以由前n-1个数和均值唯一确定,实际上没有包含新的可用信息。因此在计算方差时,要除以n-1,而非n。
更严格的证明如下。
设总体的均值为μ\muμ,标准差为σ\sigmaσ,均是未知的。对于独立同分布的n个样本x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn,根据均值和方差的定义,我们有:
E(xi)=μ, ∀i=1,...,nE[(xi−μ)2]=Var(xi)=σ2, ∀i=1,...,n
\begin{align}
&E(x_i)=\mu,~\forall i=1,...,n \\
&E\left[(x_i-\mu)^2\right]=Var(x_i)=\sigma^2,~\forall i=1,...,n
\end{align}
E(xi)=μ, ∀i=1,...,nE[(xi−μ)2]=Var(xi)=σ2, ∀i=1,...,n
为了估计总体的均值和方差,定义如下两个统计量:
- 样本均值
xˉ=1n∑i=1nxi \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1i=1∑nxi
- 样本方差:
S2=1n−1∑i=1n(xi−xˉ)2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 S2=n−11i=1∑n(xi−xˉ)2
样本均值和方差均是统计量,也是随机变量。样本方差表示样本中变量到样本均值的平均距离。
对于样本均值xˉ\bar{x}xˉ,其期望满足:
E(xˉ)=E(1n∑i=1nxi)=μE(\bar{x})=E(\frac{1}{n}\sum_{i=1}^{n}x_i)=\muE(xˉ)=E(n1∑i=1nxi)=μ
样本均值的期望等于总体均值,因而是一个无偏估计,其方差:
Var(xˉ)=E(xˉ−μ)2=Var(1n∑i=1nxi)=1n2∑i=1nVar(xi)=σ2n
\begin{align}
Var(\bar{x})&=E(\bar{x}-\mu)^2=Var( \frac{1}{n}\sum_{i=1}^{n}x_i) \\
&=\frac{1}{n^2}\sum_{i=1}^{n}Var(x_i) \\
&=\frac{\sigma^2}{n}
\end{align}
Var(xˉ)=E(xˉ−μ)2=Var(n1i=1∑nxi)=n21i=1∑nVar(xi)=nσ2
可见,对样本均值估计的方差随着样本数的增加而减小,样本越多,样本均值越是集中在总体均值附近。
现在再看样本的方差,假设前面系数的分母是n-1,而不是n,则有:
1n∑i=1n(xi−xˉ)2=1n∑i=1n(xi−μ+μ−xˉ)2=1n∑i=1n(xi−μ)2+2n∑i=1n(xi−μ)(μ−xˉ)+1n∑i=1n(μ−xˉ)2=1n∑i=1n(xi−μ)2−(μ−xˉ)2
\begin{align}
&\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \\
&=\frac{1}{n}\sum_{i=1}^{n}\large(x_i-\mu+\mu-\bar{x})^2 \\
&=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2+\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\mu-\bar{x})+\frac{1}{n}\sum_{i=1}^{n}(\mu-\bar{x})^2 \\
&=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2-(\mu-\bar{x})^2
\end{align}
n1i=1∑n(xi−xˉ)2=n1i=1∑n(xi−μ+μ−xˉ)2=n1i=1∑n(xi−μ)2+n2i=1∑n(xi−μ)(μ−xˉ)+n1i=1∑n(μ−xˉ)2=n1i=1∑n(xi−μ)2−(μ−xˉ)2
它的期望为:
E[1n∑i=1n(xi−xˉ)2]=E[1n∑i=1n(xi−μ)2]−E[(μ−xˉ)2]=σ2−1nσ2=n−1nσ2
\begin{align}
&E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\
&=E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]-E\left[(\mu-\bar{x})^2\right] \\
&=\sigma^2-\frac{1}{n}\sigma^2 \\
&=\frac{n-1}{n}\sigma^2
\end{align}
E[n1i=1∑n(xi−xˉ)2]=E[n1i=1∑n(xi−μ)2]−E[(μ−xˉ)2]=σ2−n1σ2=nn−1σ2
可见,分母为n时,样本方差总是比总体方差要小,由于低估了方差,因此需要将其放大一点,:
E(S2)=nn−1E[1n∑i=1n(xi−xˉ)2]=σ2
\begin{align}
&E(S^2)=\frac{n}{n-1}E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\
&=\sigma^2
\end{align}
E(S2)=n−1nE[n1i=1∑n(xi−xˉ)2]=σ2
乘以放大系数nn−1\frac{n}{n-1}n−1n,样本方差公式里系数的分母变成n-1,此时对总体方差的估计就是无偏的。
可以看到,样本方差等于总体方差减去样本均值的方差,如果用样本均值估计总体均值,对总体方差的估计是有偏差的,偏差就是样本均值的方差。随着样本总量n的增加,样本方差S会越来越接近总体方差σ\sigmaσ。当n很大时,用n或者n-1差别并不大,两者最终都会收敛到真实的总体方差。
需要注意的是,这里假设总体的均值和方差均是未知的。如果总体均值已知,即xˉ=μ\bar{x}=\muxˉ=μ,则有:
E[1n∑i=1n(xi−xˉ)2]=E[1n∑i=1n(xi−μ)2]=σ2
\begin{align}
&E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] =E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]=\sigma^2
\end{align}
E[n1i=1∑n(xi−xˉ)2]=E[n1i=1∑n(xi−μ)2]=σ2
这是一个无偏估计。此时,计算样本方差的分母就是n,而不再是n-1,符合我们的直觉。