1.中心极限定理(central limit theorem)
定义:设从均值为 μ\muμ、方差为σ2\sigma^2σ2(有限)的任意一个总体中抽取样本量为nnn的样本, 当nnn充分大时,样本均值X‾\overline{X}X的抽样分布近似服从均值为μ\muμ、方差为σ2/n\sigma^2/nσ2/n的正态分布。
-
知识点:
1、中心极限定理要求nnn必须充分大,实际应用中,我们常要求n≥30n\geq30n≥30。
2、中心极限定理告诉我们不管总体的分布是什么,此时样本均值X‾\overline{X}X的分布总是近似正态分布。
3、当nnn越接近于∞\infty∞时,均值抽样分布越接近于正态分布。一般而言,当n=10或15n=10或15n=10或15就已经很接近正 态分布了。
4、样本均值X‾\overline{X}X抽样分布的方差等于原分布的方差除以nnn,即s2=σ2/ns^2=\sigma^2/ns2=σ2/n
5、样本均值抽样分布的标准差通常称为均值标准差或均值标准误差,计算公式为s=σ/ns=\sigma/\sqrt{n}s=σ/n
意义:中心极限定理为数理统计在统计学中的应用铺平了道路,用样本推断总体的关键在于掌握样本特征值的抽样分布,而中心极限定理表明只要样本容量足够大,得知未知总体的样本特征值就近似服从正态分布。从而,只要采用大量观察法获得足够多的随机样本数据,几乎就可以把数理统计的全部处理问题的方法应用于用统计学,这从另一个方面也间接地开辟了统计学的方法领域,其在现代推断统计学方法论中占据了主导地位。
2.偏态与峰态
偏态(skewness)和峰态(kurtosis)是对分布形状的测度
偏态:
“偏态”一次是由统计学家皮尔逊于1895年首次提出的,它是对数据分布对称性的测度。测度偏态的统计量是偏态系数(confidence of skewness), 记作SK。
峰态:
"峰态"一次是由统计学家皮尔逊于1905年首次提出的,它是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数(confidence of kurtosis), 记作K。
>0 | <0 | ||
---|---|---|---|
SK | 正偏(右偏) | 负偏(左偏) | SK的绝对值越大,表示左偏或右偏的程度越大 |
K | 尖峰分布 | 扁平分布 | K的绝对值越大,表明分布比正态分布更平或更尖 |
3.伯努利分布(Bernoulli Distribution)
伯努利分布由伯努利实验而来,伯努利实验指一次实验只有两个结果,是或否。伯努利实验成功的次数服从伯努利分布,参数ppp是实验成功过的频率,伯努利分布是一个离散型分布。
4.参数估计(Parameter Estimation)与置信区间(Confidence Interval)
- 参数估计:参数估计就是用样本统计量去估计总体的参数。比如,用样本均值X‾\overline{X}X估计总体均值μ\muμ, 用样本比例ppp估计总体比例π\piπ,用样本方差s2s^2s2估计总体方差σ2\sigma^2σ2,等等。
- 参数估计的方法有点估计和区间估计两种。点估计(Point Estimate)就是用样本统计量θ^\widehat{\theta}θ的某个值直接作为总体参数θ\thetaθ的估计值。在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值。在用点估计值代表总体参数值的同时,还必须给出点估计值的可靠性,也就是说,必须能说出点估计值与总体参数的真实值接近的程度。但一个点估计的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量,因此就不能完全依赖于一个点估计值,而是围绕点估计值构造总体参数的一个区间,这就是区间估计。区间估计(Interval Estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。
- 在区间估计中,由样本统计量所构造的总体参数的估计区间被称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平(confidence leval),也称为置信度或置信系数(confidence coefficient)。
5.t-分布
在概率论和统计学中,t-分布用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
t-分布曲线形态与n(确切地说与自由度df)大小有关。与标准正态分布曲线相比,自由度df越小,t-分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘地愈高;自由度df愈大,t-分布曲线愈接近正态分布曲线,当自由度df=∞df=\inftydf=∞时,t-分布曲线为标准正态分布曲线。