统计学day2

最新推荐文章于 2022-01-25 22:14:31 发布

转载最新推荐文章于 2022-01-25 22:14:31 发布 · 258 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/nextthen/article/details/89047977

文章标签：

#自学统计学

自学统计学专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了统计学中的中心极限定理，解释了无论总体分布如何，样本均值趋于正态分布的现象，并介绍了置信区间的概念及其在估计总体参数中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍中心极限定律和置信区间。

一.中心极限定理

首先是中心极限定理。中心极限定理是统计学中比较重要的一个定理。只有真正理解了中心极限定理才能更好的理解统计学中其他的知识，比如正态分布。
那么什么是中心极限定理（Central Limit Theorem）

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。

我们先举个栗子?

现在我们要统计全国的人的体重，看看我国平均体重是多少。当然，我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组，每组50个人。然后，我们求出第一组的体重平均值、第二组的体重平均值，一直到最后一组的体重平均值。中心极限定理说：这些平均值是呈现正态分布的。并且，随着组数的增加，效果会越好。最后，当我们再把1000组算出来的平均值加起来取个平均值，这个平均值会接近全国平均体重。

1.总体本身的分布不要求正态分布

上面的例子中，人的体重是正态分布的。但如果我们的例子是掷一个骰子（平均分布），最后每组的平均值也会组成一个正态分布。

2.样本每组要足够大，但也不需要太大

取样本的时候，一般认为，每组大于等于30个，即可让中心极限定理发挥作用。

二.用实际数据来展示中心极限定理：

import numpy as np 
random_data = np.random.randint(1, 7, 10000)
print random_data.mean() # 打印平均值
print random_data.std()  # 打印标准差

后面再现在我们抽取若干组（比如3000），每组60个。我们把每组的平均值都算出来。然后数据可视化处理后发现，平均值呈现正态分布。

三.数学解释中心极限定理

首先介绍泰勒展式：

对一个连续可导的函数，在一点局部我们认为这个函数可以用线性函数来拟合，从而有
.
这里面是零阶项，是一阶修正，是高阶小量。

与此对应，我们可以试着对随机变量的进行“局部的泰勒展开”。假设是独立同分布的变量，那么根据大数定律和中心极限定理，我们有
.
其中期望对应，标准差对应一阶导，标准正态分布对应线性函数，是概率意义下的高阶小量。

通过这个类比我们可以这样理解大数定律和中心极限定理：
1、大数定律和中心极限定理可以看做随机变量的零阶和一阶“泰勒展开”，其中大数定律是随机变量的“零阶估计”，中心极限定理是在大数定律成立下的“一阶导数”，在极限下高阶小量可忽略。2、大数定律负责给出估计——期望，中心极限定理负责给出大数定律的估计的误差——标准差乘以标准正态分布。3、通过泰勒展开我们可以对中心极限定理的应用范围有一个直观的估计。为了使泰勒展开成立，我们假设了高阶小量在取平均（除以后）是可以忽略的。为了使这一点成立，我们至少需要样本量和方差在同一量级上或者更小

四、什么是置信区间？（Confidence intervals）

置信区间是一种常用的区间估计方法，所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间 [2] 。对于一组给定的样本数据，其平均值为μ，标准偏差为σ，则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ，其中α为非置信水平在正态分布内的覆盖面积，Ζα/2即为对应的标准分数。