本文介绍中心极限定律和置信区间。
一.中心极限定理
首先是中心极限定理。中心极限定理是统计学中比较重要的一个定理。 只有真正理解了中心极限定理才能更好的理解统计学中其他的知识,比如正态分布。
那么什么是中心极限定理(Central Limit Theorem)
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
我们先举个栗子?
现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。 然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。 最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。
1.总体本身的分布不要求正态分布
上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。
2.样本每组要足够大,但也不需要太大
取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。
二.用实际数据来展示中心极限定理:
import numpy as np
random_data = np.random.randint(1, 7, 10000)
print random_data.mean() # 打印平均值
print random_data.std() # 打印标准差
后面再现在我们抽取若干组(比如3000),每组60个。我们把每组的平均值都算出来。然后数据可视化处理后发现,平均值呈现正态分布。
三.数学解释中心极限定理
首先介绍泰勒展式:
对一个连续可导的函数,在一点局部我们认为这个函数可以用线性函数来拟合,从而有
.
这里面 是零阶项,是一阶修正,是高阶小量。
与此对应,我们可以试着对随机变量的进行“局部的泰勒展开”。假设是独立同分布的变量,那么根据大数定律和中心极限定理,我们有
.
其中期望对应 ,标准差对应一阶导,标准正态分布对应线性函数,是概率意义下的高阶小量。
通过这个类比我们可以这样理解大数定律和中心极限定理:
四、什么是置信区间?(Confidence intervals)
置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间 [2] 。对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ,其中α为非置信水平在正态分布内的覆盖面积 ,Ζα/2即为对应的标准分数。