总体、样本、样本的抽样分布

本文深入探讨了统计学中的核心概念,包括总体、样本和样本的抽样分布。中心极限定理指出,随着样本容量n增大,样本均值的抽样分布趋向正态分布且更集中。大数定律则表明,样本均值在大量抽样后接近总体均值。此外,文章还介绍了样本均值抽样分布的方差计算及其与总体方差的关系,以及在总体方差已知和未知情况下的处理方式。

本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。

总体:就是一个概率分布。
样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
其中,
样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个(x1,x2,...,xn)x_1,x_2,...,x_n)x1,x2,...,xn)
样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
抽样分布可以分为两类:
一类:关于均值的分布:正态分布和t-分布;
一类:关于方差的分布:卡方分布和F-分布。

今天先说样本均值的抽样分布,此处涉及中心极限定理
通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
其中,
1、总体本身的分布不要求正态分布;
2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。

所以,样本均值的抽样分布是服从正态分布,即x‾\overline{x}x~N(μ,σ2/n\mu,σ^2/nμ,σ2/n)

(参考:网易公开课-可汗学院-统计学
网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)

通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
在这里插入图片描述

接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962

均值方差标准差
总体(容量N)μ\muμσ2σ^2σ2σ\sigmaσ
样本(容量n)x‾\overline{x}xS2S^2S2SSS
样本均值的抽样分布(容量n)μx‾\mu_{\overline{x}}μxσx‾2\sigma_{\overline{x}}^{2}σx2σx‾\sigma_{\overline{x}}σx

其中,

  • 均值

    • 总体均值μ=∑i=1NxiN\mu=\frac { \sum_{i=1}^N{x_i} } {N}μ=Ni=1Nxi

    • 样本均值x‾=x‾n=∑i=1nxin\overline{x}=\overline{x}_n=\frac { \sum_{i=1}^n{x_i }} {n}x=xn=ni=1nxi

    • 大数定理:当n—>∞时,x‾n\overline{x}_nxn—>E(X)=μ。即当样本量n足够大的时候,样本均值收敛于总体均值或随机变量期望值,揭示了频率和概率的关系。

    • 样本均值抽样分布的均值μx‾\mu_{\overline{x}}μx是总体均值μ的估计,即可以认为:μx‾=μ\mu_{\overline{x}}=\muμx=μ

  • 方差

    • 总体方差σ2=∑i=1N(xi−μ)2Nσ^2=\frac { \sum_{i=1}^N(x_i - \mu)^2 } {N}σ2=Ni=1N(xiμ)2

    • 样本方差Sn2=∑i=1n(xi−x‾)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {n}Sn2=ni=1n(xix)2
      因为n<N,抽到的样本会比总体相对更集中,波动更小一些,即样本方差S2S^2S2通常会比总体方差σ2σ^2σ2小,所以需要对样本方差进行了修正。

    • 修正后的样本方差(无偏方差)Sn−12=∑i=1n(xi−x‾)2n−1S_{n-1}^2=\frac { \sum_{i=1}^n(x_i - {\overline{x}})^2 } {{n-1} }Sn12=n1i=1n(xix)2

    • 如果知道总体均值μμμ,那么就不用(n-1)进行无偏估计,可以直接写成:Sn2=∑i=1n(xi−μ)2nS_{n}^2=\frac { \sum_{i=1}^n(x_i - \mu)^2 } {n}Sn2=ni=1n(xiμ)2

    • 样本均值抽样分布的方差(均值方差)
      这里区分总体方差已知和总体方差未知2种情况:
      总体方差σ2σ^2σ2已知:σx‾2=σ2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}σx2=nσ2
      总体方差σ2σ^2σ2未知,则用样本方差S2S^2S2来估计:
      σx‾2=σ2n≈S2n\sigma_{\overline{x}}^{2}=\frac {σ^2 } {n}≈\frac {S^2 } {n}σx2=nσ2nS2

当样本容量n>30时,可以认为,样本方差SSS可以比较好的估计总体方差σ\sigmaσ,根据中心极限定理,认为样本均值的抽样分布符合正态分布;
n<30时,样本方差SSS和总体方差σ\sigmaσ相差比较大,认为符合t分布。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值