不放回抽样的抽样平均误差总是小于放回抽样的抽样平均误差
对于放回抽样,样本各个数据之间是独立同分布的
因此,其抽样平均误差即为
σ12=var(∑i=1nxin)=1n2∑var(xi)=1nσ2(X)
\begin{aligned}
\sigma_1^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\
&=\frac{1}{n^2}\sum{var(x_i)}\\
&=\frac{1}{n}\sigma^2(X)
\end{aligned}
σ12=var(n∑i=1nxi)=n21∑var(xi)=n1σ2(X)
对于不放回抽样,样本数据之间并不独立,计算抽样平均误差如下
σ22=var(∑i=1nxin)=E(∑i=1nxin−Xˉ)2=1n2E(∑i=1nxi−nXˉ)=1n2E[(x1−Xˉ)+(x2−Xˉ)+...+(xn−Xˉ)]2=1n2[∑E(xi−Xˉ)2+∑i≠jE(xi−Xˉ)(xj−Xˉ)]
\begin{aligned}
\sigma_2^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\
&=E(\frac{\sum_{i=1}^{n}{x_i}}{n}-\bar{X})^2\\
&=\frac{1}{n^2}E(\sum_{i=1}^{n}{x_i}-n\bar{X})\\
&=\frac{1}{n^2}E[(x_1-\bar{X})+(x_2-\bar{X})+...+(x_n-\bar{X})]^2\\
&=\frac{1}{n^2}[\sum{E(x_i-\bar{X})^2}+\sum_{i\neq j}{E(x_i-\bar{X})(x_j-\bar{X})}]
\end{aligned}
σ22=var(n∑i=1nxi)=E(n∑i=1nxi−Xˉ)2=n21E(i=1∑nxi−nXˉ)=n21E[(x1−Xˉ)+(x2−Xˉ)+...+(xn−Xˉ)]2=n21[∑E(xi−Xˉ)2+i=j∑E(xi−Xˉ)(xj−Xˉ)]
其中
E(xi−Xˉ)2=∑i=1NPi(Xi−Xˉ)2=∑i=1N1N(Xi−Xˉ)2=σ2(X)
\begin{aligned}
E(x_i-\bar{X})^2
&=\sum_{i=1}^{N}{P_i}(X_i-\bar{X})^2\\
&=\sum_{i=1}^{N}{\frac{1}{N}}(X_i-\bar{X})^2\\
&=\sigma^2(X)
\end{aligned}
E(xi−Xˉ)2=i=1∑NPi(Xi−Xˉ)2=i=1∑NN1(Xi−Xˉ)2=σ2(X)
E(xi−Xˉ)(xj−Xˉ)=∑K≠LPK,L,(XK−Xˉ)(XL−Xˉ)=∑K≠L1N(N−1)(XK−Xˉ)(XL−Xˉ)=1N(N−1)∑K≠L(XK−Xˉ)(XL−Xˉ)=1N(N−1)[[∑(xj−xˉ)]2−∑(xj−xˉ)2]=−1N−1σ2(X)
\begin{aligned}
E(x_i-\bar{X})(x_j-\bar{X})
&=\sum_{K\neq L}{P_{K,L,}}(X_K-\bar{X})(X_L-\bar{X})\\
&=\sum_{K\neq L}{\frac{1}{N(N-1)}}(X_K-\bar{X})(X_L-\bar{X})\\
&=\frac{1}{N(N-1)}\sum_{K\neq L}{}(X_K-\bar{X})(X_L-\bar{X})\\
&=\frac{1}{N(N-1)}[[\sum{(x_j-\bar{x})}]^2-\sum(x_j-\bar{x})^2]\\
&=-\frac{1}{N-1}\sigma^2(X)
\end{aligned}
E(xi−Xˉ)(xj−Xˉ)=K=L∑PK,L,(XK−Xˉ)(XL−Xˉ)=K=L∑N(N−1)1(XK−Xˉ)(XL−Xˉ)=N(N−1)1K=L∑(XK−Xˉ)(XL−Xˉ)=N(N−1)1[[∑(xj−xˉ)]2−∑(xj−xˉ)2]=−N−11σ2(X)
则
σ22=1n2[nσ2(X)−n(n−1)1N−1σ2(X)]=N−nN−11nσ2(X)
\begin{aligned}
\sigma_2^2&=\frac{1}{n^2}[n\sigma^2(X)-n(n-1)\frac{1}{N-1}\sigma^2(X)]\\
&=\frac{N-n}{N-1}\frac{1}{n}\sigma^2(X)
\end{aligned}
σ22=n21[nσ2(X)−n(n−1)N−11σ2(X)]=N−1N−nn1σ2(X)
究其原因,在于不放回的抽样方式中,各个样本之间并不是独立的,相比于放回抽样时计算抽样平均误差只需要计算各个数据的方差,不放回的抽样还需要计算各个数据之间的协方差,可以证明该协方差为负,也可以相对直观地去进行理解:对于给定Xi=xiX_i=x_iXi=xi,XjX_jXj的条件期望与与xix_ixi在总体均值Xˉ\bar{X}Xˉ的两侧,因此认为二者协方差为负。
也从另一个角度去理解,由于放回抽样有可能抽到已经抽到过的个体,而不放回抽样一定会抽到不同个体,导致了不放回抽样一般而言能够获得更多的信息量,因而一致性上的表现会更强。