二元和计数数据的回归分析
在数据分析的世界里,传统的简单或多元线性回归假设响应变量呈正态分布,且以预测变量的线性组合为中心。然而,在许多实际场景中,响应变量并非正态分布,可能是分类变量,如“患病 - 未患病”“存活 - 死亡”等,也可能是整数值,如“患病数量”“失败次数”等。这时,逻辑回归和泊松回归就成为了处理二元和计数响应的合适模型。
1. 逻辑回归
逻辑回归适用于响应变量为二元的情况,通常将其编码为 0 和 1。
1.1 逻辑回归模型
基本统计模型如下:
当响应为伯努利分布(0 或 1)时:
[
\begin{cases}
y_i \sim Ber(p_i) \
logit(p_i) = log\frac{p_i}{1 - p_i} = \beta_0 + \beta_1x_i, i = 1, \cdots, n
\end{cases}
]
当多个测量对应相同协变量时,可将响应表示为二项计数:
[
\begin{cases}
y_i \sim Bin(n_i, p_i) \
logit(p_i) = log\frac{p_i}{1 - p_i} = \beta_0 + \beta_1x_i, i = 1, \cdots, k \
\sum_{i = 1}^{k}n_i = n
\end{cases}
]
参数 $\beta_0$ 和 $\beta_1$ 的估计不能使用传统的最小二乘法,而是通过迭代过程求解非线性方程。以牛顿 - 拉夫森方法为例,可在 logisticmle.m </
二元与计数数据回归分析
超级会员免费看
订阅专栏 解锁全文
868

被折叠的 条评论
为什么被折叠?



