放回抽样与不放回抽样带来的抽样平均误差的差别

文章讨论了在统计抽样中,不放回抽样的抽样平均误差通常小于放回抽样的原因。这主要是因为不放回抽样中样本间存在关联,导致协方差为负,从而减少了误差。放回抽样假设样本独立,仅考虑单个数据点的方差,而不放回抽样需同时考虑协方差,这使得不放回抽样在获取信息上更有效,误差更小。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

不放回抽样的抽样平均误差总是小于放回抽样的抽样平均误差

对于放回抽样,样本各个数据之间是独立同分布的
因此,其抽样平均误差即为
σ12=var(∑i=1nxin)=1n2∑var(xi)=1nσ2(X) \begin{aligned} \sigma_1^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=\frac{1}{n^2}\sum{var(x_i)}\\ &=\frac{1}{n}\sigma^2(X) \end{aligned} σ12=var(ni=1nxi)=n21var(xi)=n1σ2(X)
对于不放回抽样,样本数据之间并不独立,计算抽样平均误差如下
σ22=var(∑i=1nxin)=E(∑i=1nxin−Xˉ)2=1n2E(∑i=1nxi−nXˉ)=1n2E[(x1−Xˉ)+(x2−Xˉ)+...+(xn−Xˉ)]2=1n2[∑E(xi−Xˉ)2+∑i≠jE(xi−Xˉ)(xj−Xˉ)] \begin{aligned} \sigma_2^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=E(\frac{\sum_{i=1}^{n}{x_i}}{n}-\bar{X})^2\\ &=\frac{1}{n^2}E(\sum_{i=1}^{n}{x_i}-n\bar{X})\\ &=\frac{1}{n^2}E[(x_1-\bar{X})+(x_2-\bar{X})+...+(x_n-\bar{X})]^2\\ &=\frac{1}{n^2}[\sum{E(x_i-\bar{X})^2}+\sum_{i\neq j}{E(x_i-\bar{X})(x_j-\bar{X})}] \end{aligned} σ22=var(ni=1nxi)=E(ni=1nxiXˉ)2=n21E(i=1nxinXˉ)=n21E[(x1Xˉ)+(x2Xˉ)+...+(xnXˉ)]2=n21[E(xiXˉ)2+i=jE(xiXˉ)(xjXˉ)]
其中
E(xi−Xˉ)2=∑i=1NPi(Xi−Xˉ)2=∑i=1N1N(Xi−Xˉ)2=σ2(X) \begin{aligned} E(x_i-\bar{X})^2 &=\sum_{i=1}^{N}{P_i}(X_i-\bar{X})^2\\ &=\sum_{i=1}^{N}{\frac{1}{N}}(X_i-\bar{X})^2\\ &=\sigma^2(X) \end{aligned} E(xiXˉ)2=i=1NPi(XiXˉ)2=i=1NN1(XiXˉ)2=σ2(X)
E(xi−Xˉ)(xj−Xˉ)=∑K≠LPK,L,(XK−Xˉ)(XL−Xˉ)=∑K≠L1N(N−1)(XK−Xˉ)(XL−Xˉ)=1N(N−1)∑K≠L(XK−Xˉ)(XL−Xˉ)=1N(N−1)[[∑(xj−xˉ)]2−∑(xj−xˉ)2]=−1N−1σ2(X) \begin{aligned} E(x_i-\bar{X})(x_j-\bar{X}) &=\sum_{K\neq L}{P_{K,L,}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\sum_{K\neq L}{\frac{1}{N(N-1)}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}\sum_{K\neq L}{}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}[[\sum{(x_j-\bar{x})}]^2-\sum(x_j-\bar{x})^2]\\ &=-\frac{1}{N-1}\sigma^2(X) \end{aligned} E(xiXˉ)(xjXˉ)=K=LPK,L,(XKXˉ)(XLXˉ)=K=LN(N1)1(XKXˉ)(XLXˉ)=N(N1)1K=L(XKXˉ)(XLXˉ)=N(N1)1[[(xjxˉ)]2(xjxˉ)2]=N11σ2(X)

σ22=1n2[nσ2(X)−n(n−1)1N−1σ2(X)]=N−nN−11nσ2(X) \begin{aligned} \sigma_2^2&=\frac{1}{n^2}[n\sigma^2(X)-n(n-1)\frac{1}{N-1}\sigma^2(X)]\\ &=\frac{N-n}{N-1}\frac{1}{n}\sigma^2(X) \end{aligned} σ22=n21[nσ2(X)n(n1)N11σ2(X)]=N1Nnn1σ2(X)
究其原因,在于不放回的抽样方式中,各个样本之间并不是独立的,相比于放回抽样时计算抽样平均误差只需要计算各个数据的方差,不放回的抽样还需要计算各个数据之间的协方差,可以证明该协方差为负,也可以相对直观地去进行理解:对于给定Xi=xiX_i=x_iXi=xiXjX_jXj的条件期望与与xix_ixi在总体均值Xˉ\bar{X}Xˉ的两侧,因此认为二者协方差为负。
也从另一个角度去理解,由于放回抽样有可能抽到已经抽到过的个体,而不放回抽样一定会抽到不同个体,导致了不放回抽样一般而言能够获得更多的信息量,因而一致性上的表现会更强。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值