泰坦尼克号的死亡记录告诉了我们什么?死亡与性别是否有关?与年龄是否有关?与所在舱位是否有关?如何解释这些关系?这些问题涉及分类数据的分析,分类数据的分析主要是利用卡方检验,其主要应用在三个方面:三个或多个总体比率相等性检验(Z检验只能比较两个总体比例)、拟合优度检验(一个总体的概率分布是否服从一个特殊的历史或理论的概率分布)、独立性检验(两个分类变量的独立性)
分类数据是对事物进行分类的结果,对这类问题是在汇总数据的基础上进行分析的,数据汇总的结果表现为频数,检验是对分类数据的频数进行分析的统计方法。
1 三个或多个总体比率的相等性的检验
1.1 检验步骤与原理
对于两个总体比率的相等性检验,前面我们采用基于标准正态分布检验统计量z,而下面对于三个或多个总体比率的相等性推断,将采用检验。
步骤1:建立原假设与备择假设
对于k>=3个总体,总体比率相等性的检验
:所有总体比率不全相等
⚠️卡方检验不局限于k个总体中的每一个的样本容量都相等
步骤2:从每一个总体中选择一个随机样本,并记录2行k列的表中的观察频数
步骤3:假定原假设为真,计算期望频数
步骤4:如果每一个单元格的期望频数大于等于5,计算检验统计量
步骤5:根据p值法或临界值法,做出是否拒绝原假设的决策
p值法:p值<=,则拒绝原假设
临界值法:>=
,则拒绝原假设
⚠️为显著性水平
⚠️卡方检验永远是一个单侧检验,原假设的拒绝域在卡方分布的上侧,因为卡方值越大,说明几个总体的比例相等的原假设越可能被拒绝
步骤6:若拒绝原假设,通过多重比较方法,成对比较是否差异显著
⚠️对于多重比较方法,显示研究中某些成对比较的显著性,甚至不显示其他成对比较的显著性是很常见的
⚠️前面我们使用标准正态分布和检验统计量z进行两个总体比率的假设检验,但是,其实本文介绍的卡方检验也可以用于进行两个总体比率相等的假设检验。在这两个检验方法下,检验的结果是相同的,而且检验统计量的数值是检验统计量z的数值的平方。使用检验统计量z的假设检验的优点是可以用于关于两个总体比率的单侧检验,也可以用于双侧检验,而本文的
检验只能用于双侧检验。
⚠️本节中k个总体中的每个选项都有两种结果:"是"或"否",事实上,每一个总体服从二项分布,其参数为p为回答"是"的总体比率。当k个总体中的每一个有3个或更多种可能的回答时,每一个总体服从多项分布,计算的期望频数以及检验统计量
方法是一样的,唯一不同的是原假设,原假设为对于所有总体回答变量的多项分布是相同的,k个总体中的每一个都有r种回答,检验统计量