广义线性模型入门指南
1. 泊松分布与数据特性
在数据分析中,分布的方差会随着均值的增加而增大,从视觉上看,就是随着均值的增长,分布的底部会变宽。泊松分布非常适合分析“无界”的计数数据。这里的“无界”并非指数据没有上限,而是说计数变量的值没有明确的上限。例如,一只雌性索艾羊一生可能产2只、5只甚至10只羊羔,虽然在现实中,其一生的繁殖能力肯定存在生物学上的限制,一只母羊不可能产下100只羊羔,但这个上限我们并不清楚,所以“无界计数”假设是对现实的一种有用近似。
2. 广义线性模型的组成部分
广义线性模型(GLM)有三个重要组成部分,分别是“族”、“线性预测器”和“链接函数”,理解这些概念对于正确使用GLM至关重要。
- 族(Family) :GLM的族部分决定了用于描述响应变量的分布类型。一般线性模型通常假设数据服从正态分布,而GLM有多种选择,包括泊松分布、二项分布、伽马分布等。每种分布适用于特定类型的数据,这些不同的GLM族让我们能够处理各种类型的响应变量,极大地增强了数据分析的能力。
| 分布类型 | 适用数据类型 |
| ---- | ---- |
| 泊松分布 | 无界计数数据 |
| 二项分布 | 后续会详细介绍 |
| 伽马分布 | 正值连续变量 |
- 线性预测器(Linear Predictor) :其实我们在使用 lm() 函数构建模型时就已经接触过线性预测器。以索艾羊为例,使用 lm(fitness ~ body.size, ...) 告诉R构建一个预
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



