广义线性模型入门:应对计数数据的挑战
1. 泊松GLM不适用计数数据的情况
在处理计数数据时,泊松广义线性模型(Poisson GLM)通常是一个不错的选择。但在实际应用中,它并非总是表现良好。接下来,我们将探讨泊松GLM可能遇到的问题以及相应的解决方法。
2. 过度离散(Overdispersion)
过度离散指的是数据中的额外变异。在泊松分布中,方差应等于均值,但在实际数据中,由于各种因素,这个假设往往不成立。
2.1 过度离散的原因
- 未测量因素 :在生物学等领域,我们很难测量所有影响变量的因素。例如,在研究个体、种群特征时,总会有一些重要方面无法测量,这些未测量因素会导致数据产生额外变异。
- 数据非独立性 :数据中的某些元素(如个体、种群等)之间可能存在相似性,而非相互独立。比如昆虫实验中,同一窝的昆虫由于共享基因和饲养环境,彼此更为相似。
2.2 过度离散的影响
如果忽略过度离散,会导致p值出现偏差,产生过多的假阳性结果,即我们可能会认为发现了实际上并不存在的效应。
2.3 检测过度离散
我们可以通过计算“离散指数”来检测过度离散。以Soay绵羊的泊松回归为例:
summary(soay.glm)
##
## Call:
## glm(formula = fitness ~ body.size, family = poisson(link =
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



