总体、样本、样本的抽样分布

最新推荐文章于 2023-09-26 21:49:42 发布

原创最新推荐文章于 2023-09-26 21:49:42 发布 · 1.1w 阅读

22 ·

CC 4.0 BY-SA版权

统计学专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了统计学中的核心概念，包括总体、样本和样本的抽样分布。中心极限定理指出，随着样本容量n增大，样本均值的抽样分布趋向正态分布且更集中。大数定律则表明，样本均值在大量抽样后接近总体均值。此外，文章还介绍了样本均值抽样分布的方差计算及其与总体方差的关系，以及在总体方差已知和未知情况下的处理方式。

本文介绍关于总体、样本、样本抽样分布的理解，及2个重要的统计学原理：中心极限定理和大数定理。

总体：就是一个概率分布。
样本：从总体中随机抽取的一个子集。其中，样本具有和总体相同的分布，样本之间两两独立。
抽样分布：对原来的分布总体，以一定样本容量抽取样本值，多次抽取后，样本的统计量（比如均值或方差）形成的分布。
其中，
样本容量（大小）/样本量：每个样本里有多少个数据，每一次试验的样本值个数，通常说n个( $x_1,x_2,...,x_n)$ 。
样本数量（空间）：抽样的时候，包含多少个样本，或者说抽多少次。
抽样分布可以分为两类：
一类：关于均值的分布：正态分布和t-分布；
一类：关于方差的分布：卡方分布和F-分布。

今天先说样本均值的抽样分布，此处涉及中心极限定理：
通俗的说，给定一个任意分布的总体，每次从这些总体中随机抽取 n 个样本值（样本容量），一共抽 m 次（样本数量），然后把这 m 组样本分别求出平均值，这些平均值（样本均值）的分布接近正态分布。
其中，
1、总体本身的分布不要求正态分布；
2、样本容量n越大，样本均值的分布约趋近于正态分布，标准差越小，即分布越集中。

所以，样本均值的抽样分布是服从正态分布，即 $x‾\overline{x}$ ~N( $μ,σ2/n\mu,σ^2/n$ )

（参考：网易公开课-可汗学院-统计学
网站：http://onlinestatbook.com/stat_sim/sampling_dist/index.html）
通过模拟试验，可以看到有关于样本均值抽样分布的图形化过程，当n取不同值时，抽样分布的形状。
下图是从视频中截取的示例图，最上面深灰色的是总体分布，中间的是n=5的样本均值抽样分布，最下面是n=25的样本均值抽样分布。
可以发现抽样发生10000次时，不同样本容量的均值相差不大分别为14.48和14.44，和总体均值近似。但是标准差相差较多，n=5时，sd=4.34；n=25时，st=1.91，即样本容量更大时，分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
在这里插入图片描述

接下来，再看看上述3类分布的均值、方差、标准差常用的基本符号和计算：
（p.s.第一次编辑数学公式，方法参考：https://www.zybuluo.com/codeep/note/163962）

	均值	方差	标准差
总体(容量N)	$μ\mu$	$σ^2$	$σ\sigma$
样本(容量n)	$x‾\overline{x}$	$S^2$	$S$
样本均值的抽样分布(容量n)	$μx‾\mu_{\overline{x}}$	$σx‾2\sigma_{\overline{x}}^{2}$	$σx‾\sigma_{\overline{x}}$

其中，

均值：
- 总体均值： $μ=∑i=1NxiN\mu=\frac { \sum_{i=1}^N{x_i} } {N}$
- 样本均值： $x‾=x‾n=∑i=1nxin\overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n}$
- 大数定理：当n—>∞时， $x‾n\overline{x}_n$ —>E(X)=μ。即当样本量n足够大的时候，样本均值收敛于总体均值或随机变量期望值，揭示了频率和概率的关系。
- 样本均值抽样分布的均值： $μx‾\mu_{\overline{x}}$ 是总体均值μ的估计，即可以认为： $μx‾=μ\mu_{\overline{x}}=\mu$
方差：
- 总体方差： $σ2=∑i=1N(xi−μ)2Nσ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N}$
- 样本方差： $Sn2=∑i=1n(xi−x‾)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n}$
  因为n<N，抽到的样本会比总体相对更集中，波动更小一些，即样本方差 $S^2$ 通常会比总体方差 $σ^2$ 小，所以需要对样本方差进行了修正。
- 修正后的样本方差（无偏方差）： $Sn−12=∑i=1n(xi−x‾)2n−1S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} }$
- 如果知道总体均值 $μ$ ，那么就不用（n-1）进行无偏估计，可以直接写成： $Sn2=∑i=1n(xi−μ)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n}$
- 样本均值抽样分布的方差（均值方差）：
  这里区分总体方差已知和总体方差未知2种情况：
  总体方差 $σ^2$ 已知: $σx‾2=σ2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}$
  总体方差 $σ^2$ 未知，则用样本方差 $S^2$ 来估计:
  $σx‾2=σ2n≈S2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n}$