第八章 列联表、χ²检验和对数线性模型
列联表是观测数据按两个或更多属性分类时所列出的频数表,如图是一个三维的列联表,每一个数字代表相应的水平组合出现的频数。
- 卡方检验
研究列联表的一个主要目的就是看这些变量是否相关,零假设是“变量1和变量2不相关”,对于两个定类变量而言,这里的检验统计量通常是计算观测频数与期望频数的差,这种差值用一个卡方统计量来表示,然后对这个卡方值进行检验,结果显著的话,证明这两个变量是关联的。卡方分布又叫χ²分布。
- 对数线性模型
对数线性模型可以用来表示列联表,根据访问结果落入列联表各个格子的概率分布,可以将模型分为多项分布对数线性模型和Poisson对数线性模性。
多项分布对数线性模型:以二维列联表为例,假定不同的行代表第一个变量的不同水平,不同的列代表第二个变量的不同水平,mij代表二维列表第i行第j列的频数,假定列联表格子中的频数属于多项分布,该频数可以描述为:
αi为行变量的第i个水平对ln(mij)的影响,βj为列变量的第j个水平对ln(mij)的影响,这两个影响称为主效应,其中各个水平的影响是相对的,所以事先要设定约束例如α1=0.因为还有可能两个变量对于ln(mij)有共同的影响,所以更为完全的多项分布对数线性模型应该是:
(αβ)ij表示第一个变量的第i个水平和第二个变量的第j个水平共同对ln(mij)的影响,称为交互效应或交互作用。
874

被折叠的 条评论
为什么被折叠?



