统计学
在现实生活中,估算样本集的均值和方差的问题经常能看到,例如教学评估,产品抽样,医学研究等。通过抽取的样本数量可以估算原样本集的均值和方差的置信区间,从而提前做出应对,甚至是在一些一定要做严格计算的时候也可以这么做。(因为提前预估数量可以提前做好大概的措施,在一定程度上节省时间成本)
T分布
-
原理:描述了当总体方差未知,用样本方差估计总体方差时,样本均值的标准化分布,计算公式是
,其中,
是样本均值,μ为总体均值,s为样本标准差,n为样本容量。
-
用途:小样本均值推断(用于样本量较小(一般n<30)时,对总体均值进行推断和假设检验);未知总体方差(当总体方差未知,只能用样本方差估计时,采用t分布)。
-
应用条件:样本来自正态分布总体;总体方差未知;样本量较小(n<30),但大样本时t分布趋近于正态分布;各样本之间独立
-
优点:推断更为稳健,避免低估标准误;计算简单,广泛应用于各类科学研究。
-
缺点:对正态性要求较高,样本分布偏离正态时结果不可靠;仅适用于均值推断,不适合方差或比例的推断;样本量极小时,结果易受异常值影响。
中心极限定理
-
原理:假设有一个总体,其均值为μ,方差为σ²,从中随机抽取n个样本,计算样本均值。随着n增大,样本均值的分布会越来越接近于均值为μ、方差为σ²/n的正态分布。计算公式为
,其中
是样本均值,这里算得的样本均值认为趋近于原样本集的均值。t是随机变量,代表样本均值与总体均值之间的标准化距离,是为了衡量样本均值与总体均值的偏离程度,用于查找概率或临界值,决定是否拒绝原假设。
-
用途:统计推断(在实际问题中,很多总体分布未知,但可以通过样本均值近似为正态分布,进行参数估计和假设检验);置信区间计算(利用正态分布性质,计算均值、比例等参数的置信区间);抽样分布分析(为各种统计量的分布提供理论基础)
-
应用条件:独立性(样本必须相互独立);同分布(样本来自同一分布(同总体));样本容量足够大(一般认为n≥30时,中心极限定理效果较好;但如果原始分布极度偏斜,可能需要更大的n);有限方差(总体方差必须有限)
-
优点:适用范围广,几乎所有实际抽样问题都能用;为统计推断提供理论基础
-
缺点:对样本独立性和同分布有要求;样本容量太小或原始分布极度偏斜时,近似效果不佳;只适用于均值等线性统计量,某些复杂统计量不适用。
卡方分布
-
原理:假设有k个独立的标准正态变量满足
,则称服从自由度为k的卡方分布。
-
用途:方差检验(用于总体方差的推断和假设检验);卡方检验(用于分类变量的独立性检验(如列联表)、拟合优度检验(如观察频数与理论频数的比较);方差分析(在方差分析(ANOVA)中用于检验组间方差);置信区间估计(用于总体方差的置信区间估计)。其中,k是自由度,表示参与统计量计算的独立变量个数(或约束条件数)。
-
应用条件:数据为计数型或分类变量(如频数、类别);各样本之间独立;理论频数一般要求大于5(尤其在列联表检验中);对于方差检验,要求样本来自正态分布总体。
-
优点:适用于分类数据,能检验变量间的独立性;计算简单,广泛用于医学、社会科学、市场调查等领域;可用于多组数据的拟合优度检验。
-
缺点:对样本量有要求,理论频数过小时检验结果不可靠;仅适用于计数型数据,不适合连续型变量;对正态性和独立性有一定要求,违背时结果不准确。
290

被折叠的 条评论
为什么被折叠?



