统计学(第6版) 贾俊平 读书笔记
第9章 分类数据分析
9.1 分类数据与χ2统计量
统计数据的类型有分类数据、顺序数据和数值型数据。分类数据是对事物进行分类的结果。例如在泰坦尼克号海难的例子中,船上共2208人,其中男性1738人,女性470人。这里,性别是分类变量,有两个类别:男性和女性,男性和女性的人数都是事件结果,以频数的方式表现。χ2检验是对分类数据的频数进行分析的统计方法。
χ2可以用于测定两个分类变量之间的相关程度。若用fo表示观察值频数,用fe表示期望值频数,则χ2统计量可以写为:
χ2统计量有如下特征:首先,χ2 ≥ 0,因为它是对平房结果的汇总;其次,χ2统计量的分布与自由度有关;最后,χ2统计量描述了观察值与期望值的接近程度。两者越接近,计算出的χ2越小。χ2检验真是通过对χ2的计算结果与χ2分布中的临界值进行比较,做出是否拒绝原假设的统计决策。
自由度越小,分布就越向左倾斜,随着自由度的增加,χ2分布的倾斜程度趋于缓解,χ2分布将趋近于对称的正态分布。利用χ2统计量,可以对分类数据进行拟合优度检验和独立性检验。
9.2 拟合优度检验
拟合优度检验是根据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。
例题:
1912年4月15日,豪华巨轮泰坦