可汗学院统计学（35-46）

最新推荐文章于 2023-10-30 19:33:23 发布

原创最新推荐文章于 2023-10-30 19:33:23 发布 · 394 阅读

0 ·

CC 4.0 BY-SA版权

统计学笔记专栏收录该内容

4 篇文章

订阅专栏

本文介绍了统计学中的中心极限定理，解释了其在样本均值分布中的作用，强调了n需大于30的重要性。同时，讨论了偏态和峰态的概念，伯努利分布的特性，并概述了参数估计和置信区间的概念，包括点估计与区间估计的差异。此外，还简要说明了t-分布在小样本估计中的应用及其与自由度的关系。

1.中心极限定理(central limit theorem)

定义：设从均值为 $μ\mu$ 、方差为 $σ2\sigma^2$ (有限)的任意一个总体中抽取样本量为 $n$ 的样本，当 $n$ 充分大时，样本均值 $X‾\overline{X}$ 的抽样分布近似服从均值为 $μ\mu$ 、方差为 $σ2/n\sigma^2/n$ 的正态分布。

知识点：

1、中心极限定理要求 $n$ 必须充分大，实际应用中，我们常要求 $n≥30n\geq30$ 。

2、中心极限定理告诉我们不管总体的分布是什么，此时样本均值 $X‾\overline{X}$ 的分布总是近似正态分布。

3、当 $n$ 越接近于 $∞\infty$ 时，均值抽样分布越接近于正态分布。一般而言，当 $n = 10 或 15$ 就已经很接近正态分布了。

4、样本均值 $X‾\overline{X}$ 抽样分布的方差等于原分布的方差除以 $n$ ，即 $s2=σ2/ns^2=\sigma^2/n$

5、样本均值抽样分布的标准差通常称为均值标准差或均值标准误差，计算公式为 $s=σ/ns=\sigma/\sqrt{n}$

意义：中心极限定理为数理统计在统计学中的应用铺平了道路，用样本推断总体的关键在于掌握样本特征值的抽样分布，而中心极限定理表明只要样本容量足够大，得知未知总体的样本特征值就近似服从正态分布。从而，只要采用大量观察法获得足够多的随机样本数据，几乎就可以把数理统计的全部处理问题的方法应用于用统计学，这从另一个方面也间接地开辟了统计学的方法领域，其在现代推断统计学方法论中占据了主导地位。

2.偏态与峰态

偏态(skewness)和峰态(kurtosis)是对分布形状的测度

偏态：

“偏态”一次是由统计学家皮尔逊于1895年首次提出的，它是对数据分布对称性的测度。测度偏态的统计量是偏态系数(confidence of skewness), 记作SK。

峰态：

"峰态"一次是由统计学家皮尔逊于1905年首次提出的，它是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数(confidence of kurtosis), 记作K。

	>0	<0
SK	正偏(右偏)	负偏(左偏)	SK的绝对值越大，表示左偏或右偏的程度越大
K	尖峰分布	扁平分布	K的绝对值越大，表明分布比正态分布更平或更尖

3.伯努利分布(Bernoulli Distribution)

伯努利分布由伯努利实验而来，伯努利实验指一次实验只有两个结果，是或否。伯努利实验成功的次数服从伯努利分布，参数 $p$ 是实验成功过的频率，伯努利分布是一个离散型分布。

4.参数估计(Parameter Estimation)与置信区间(Confidence Interval)

参数估计：参数估计就是用样本统计量去估计总体的参数。比如，用样本均值 $X‾\overline{X}$ 估计总体均值 $μ\mu$ ，用样本比例 $p$ 估计总体比例 $π\pi$ ，用样本方差 $s^2$ 估计总体方差 $σ2\sigma^2$ ，等等。
参数估计的方法有点估计和区间估计两种。点估计(Point Estimate)就是用样本统计量 $θ^\widehat{\theta}$ 的某个值直接作为总体参数 $θ\theta$ 的估计值。在重复抽样条件下，点估计的均值可望等于总体真值，但由于样本是随机的，抽出一个具体的样本得到的估计值很可能不同于总体真值。在用点估计值代表总体参数值的同时，还必须给出点估计值的可靠性，也就是说，必须能说出点估计值与总体参数的真实值接近的程度。但一个点估计的可靠性是由它的抽样标准误差来衡量的，这表明一个具体的点估计值无法给出估计的可靠性的度量，因此就不能完全依赖于一个点估计值，而是围绕点估计值构造总体参数的一个区间，这就是区间估计。区间估计(Interval Estimate)是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。与点估计不同，进行区间估计时，根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。
在区间估计中，由样本统计量所构造的总体参数的估计区间被称为置信区间，其中区间的最小值称为置信下限，最大值称为置信上限。一般地，如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence leval)，也称为置信度或置信系数(confidence coefficient)。