1. 什么是抽样?
在统计学中,我们通常无法获取整个总体的数据(比如全国所有人的身高),所以我们从总体中随机抽取一部分数据,称为 样本,然后用样本来推测总体特征。
2. 常见的抽样方法
不同的抽样方式会影响数据的代表性和可靠性,主要有:
- 简单随机抽样:每个个体都有相同的被选中机会(如抽签、随机数)。
- 系统抽样:按固定间隔选择样本(如每隔 10 人选 1 人)。
- 分层抽样:先将总体按某个特征分层(如性别、年龄段),然后在每层内随机抽样。
- 整群抽样:将总体分成多个群组,随机抽取几个群组作为样本(如抽取 5 所学校的所有学生)。
3. 抽样分布
当我们从总体中抽取多个样本时,每个样本的统计量(如均值)都会有所不同。这些样本统计量的分布就叫 抽样分布。
- 中心极限定理:
当样本足够大时(通常 n≥30),不管总体是什么分布,样本均值的分布都会趋近于 正态分布。这为推断统计提供了数学基础。
4. 抽样分布的关键统计量
在抽样分布中,有几个重要的统计量:
(1)样本均值的分布
如果我们不断从总体中抽取样本,并计算每个样本的均值,这些均值会形成一个分布,即 样本均值的抽样分布。
- 均值:样本均值的期望值等于总体均值,即
- 标准误:衡量样本均值的波动性,计算公式为:
σ是总体标准差,n是样本大小。样本越大,标准误越小,说明样本均值更接近总体均值。
(2)样本比例的分布
如果研究的是某个特征的比例(如某城市支持某政策的人的比例),则样本比例的抽样分布也遵循正态分布,其标准误计算如下:
其中,p是总体比例,n是样本大小。
5. 抽样分布的应用
抽样分布在推断统计中非常重要,主要用于:
- 置信区间:估计总体均值或比例的范围。
- 假设检验:检验样本数据是否支持某个假设,比如某药物是否有效。
中心极限定理 告诉我们,当样本量足够大时(n≥30),样本均值的分布会接近正态分布,因此我们可以用 正态分布表 来进行统计推断。
置信区间
1. 什么是置信区间?
置信区间用于估计总体参数(如均值或比例)的范围,而不是单一的数值。例如,如果一个样本均值是 50,我们可能会说总体均值落在 45 到 55 之间,而不是直接假设它等于 50。
置信区间的核心思想:
- 我们不能百分之百确定总体参数的真实值,但可以构造一个范围,使其包含总体参数的可能性很高。
- 置信水平指的是区间包含总体参数的概率,常见的有 90%、95%、99%。
2. 置信区间的计算公式
置信区间的计算依赖于样本统计量、标准误差和一个关键值(来自正态分布或 t 分布)。
(1)总体标准差已知(使用正态分布)
当总体标准差 σ已知时,置信区间计算如下:
其中:
- X是样本均值
- SE=σ 是标准误差
- Z 是正态分布的临界值(如 95% 置信水平时,(Z = 1.96))
示例:假设某学校学生的数学考试平均分为 75,已知总体标准差为 10,随机抽取了 100 名学生,求 95% 置信区间。
这意味着我们有 95% 的信心认为总体均值落在 73.04 到 76.96 之间。
(2)总体标准差未知(使用 t 分布)
在实际问题中,通常不知道总体标准差 σ,只能用样本标准差 s 来估计,此时使用 t 分布:
其中:
- SE=s/sqrt(n)
- t 值来自 t 分布表,取决于样本大小(自由度 df=n−1)和置信水平。
当样本量较小时(如 n<30),t 分布会比正态分布更宽,意味着区间会更大,以反映更大的不确定性。
题目:
某公司对员工的每日工作时长进行调查,随机抽取了 36 名员工,测得他们的 平均工作时长为 8.2 小时,样本标准差为 0.6 小时。请计算 95% 置信区间。
解题步骤:
-
确定已知信息:
- 样本均值:Xˉ=8.2
- 样本标准差:s=0.6(总体标准差未知,所以用 t 分布)
- 样本大小:n=36
- 置信水平:95%
- t 值(查表得 t=2.030对应自由度 df=n−1=35)
-
计算标准误(SE):
-
计算置信区间:
结论:
我们有 95% 的信心认为,员工的总体平均工作时长在 7.997 到 8.403 小时 之间。