数据科学每日总结--Day5--统计学

最新推荐文章于 2025-11-25 14:11:30 发布

原创最新推荐文章于 2025-11-25 14:11:30 发布 · 525 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#概率论

统计学

在现实生活中，估算样本集的均值和方差的问题经常能看到，例如教学评估，产品抽样，医学研究等。通过抽取的样本数量可以估算原样本集的均值和方差的置信区间，从而提前做出应对，甚至是在一些一定要做严格计算的时候也可以这么做。（因为提前预估数量可以提前做好大概的措施，在一定程度上节省时间成本）

T分布

原理：描述了当总体方差未知，用样本方差估计总体方差时，样本均值的标准化分布，计算公式是 $t = \frac{\bar{x}-\mu}{s/\sqrt{n}}$ ,其中， $\bar{x}$ 是样本均值，μ为总体均值，s为样本标准差，n为样本容量。
用途：小样本均值推断（用于样本量较小（一般n<30）时，对总体均值进行推断和假设检验）；未知总体方差（当总体方差未知，只能用样本方差估计时，采用t分布）。
应用条件：样本来自正态分布总体；总体方差未知；样本量较小（n<30），但大样本时t分布趋近于正态分布；各样本之间独立
优点：推断更为稳健，避免低估标准误；计算简单，广泛应用于各类科学研究。
缺点：对正态性要求较高，样本分布偏离正态时结果不可靠；仅适用于均值推断，不适合方差或比例的推断；样本量极小时，结果易受异常值影响。

中心极限定理

原理：假设有一个总体，其均值为μ，方差为σ²，从中随机抽取n个样本，计算样本均值。随着n增大，样本均值的分布会越来越接近于均值为μ、方差为σ²/n的正态分布。计算公式为 $\bar{x} = \frac{1}{n} \sum_{i=1}^{n}{x_{i}}$ ，其中 $\bar{x}$ 是样本均值，这里算得的样本均值认为趋近于原样本集的均值。t是随机变量，代表样本均值与总体均值之间的标准化距离，是为了衡量样本均值与总体均值的偏离程度，用于查找概率或临界值，决定是否拒绝原假设。
用途：统计推断（在实际问题中，很多总体分布未知，但可以通过样本均值近似为正态分布，进行参数估计和假设检验）；置信区间计算（利用正态分布性质，计算均值、比例等参数的置信区间）；抽样分布分析（为各种统计量的分布提供理论基础）
应用条件：独立性（样本必须相互独立）；同分布（样本来自同一分布（同总体））；样本容量足够大（一般认为n≥30时，中心极限定理效果较好；但如果原始分布极度偏斜，可能需要更大的n）；有限方差（总体方差必须有限）
优点：适用范围广，几乎所有实际抽样问题都能用；为统计推断提供理论基础
缺点：对样本独立性和同分布有要求；样本容量太小或原始分布极度偏斜时，近似效果不佳；只适用于均值等线性统计量，某些复杂统计量不适用。

卡方分布

原理：假设有k个独立的标准正态变量满足 $x^{2} = Z_{1}^{2} + Z_{2}^{2} + ... + Z_{k}^{2}$ ，则称服从自由度为k的卡方分布。
用途：方差检验（用于总体方差的推断和假设检验）；卡方检验（用于分类变量的独立性检验（如列联表）、拟合优度检验（如观察频数与理论频数的比较）；方差分析（在方差分析（ANOVA）中用于检验组间方差）；置信区间估计（用于总体方差的置信区间估计）。其中，k是自由度，表示参与统计量计算的独立变量个数（或约束条件数）。
应用条件：数据为计数型或分类变量（如频数、类别）；各样本之间独立；理论频数一般要求大于5（尤其在列联表检验中）；对于方差检验，要求样本来自正态分布总体。
优点：适用于分类数据，能检验变量间的独立性；计算简单，广泛用于医学、社会科学、市场调查等领域；可用于多组数据的拟合优度检验。
缺点：对样本量有要求，理论频数过小时检验结果不可靠；仅适用于计数型数据，不适合连续型变量；对正态性和独立性有一定要求，违背时结果不准确。