多元逻辑回归全面解析
1. 多元逻辑回归基础
在很多情况下,我们需要计算事件发生的概率。假设已估计出方程 3.3 中的系数为 $b_0, b_1, \cdots, b_p$,可将估计的线性预测器写为:
$LP_i = b_0 + b_1X_{i1} + \cdots + b_pX_{ip}$
此时方程 3.3 可改写为:
$\hat{\pi}_i = \frac{e^{LP_i}}{1 + e^{LP_i}}$
这里的 $\hat{\pi}_i$ 是 $\pi_i$ 的估计值,用于估计模型中事件发生的概率,也就是 $y_i$ 的预测值或拟合值。一个好的模型所给出的预测值 $\hat{\pi}_i$ 应接近观测比例 $p_i = y_i / n_i$。
1.1 分类协变量
方程 3.3 中的 $X$ 可以是连续变量或二元变量。若要对分类或有序变量进行建模,就需要生成一系列所谓的“虚拟”变量。比如,有三种国籍:英格兰人、威尔士人和苏格兰人。由于有三个组,所以有两个自由度(若不是威尔士人或苏格兰人,那必然是英格兰人,这里英格兰人作为参考组)。可以定义 $X_{Welsh}$ 为:若为威尔士人则取值为 1,否则为 0;同理,$X_{Scottish}$ 为:若为苏格兰人则取值为 1,否则为 0。任何系数都是将某一类别与参考组进行对比,例如 $X_{Welsh}$ 是将威尔士人与英格兰人进行对比,只要模型中包含 $X_{Scottish}$,就可忽略苏格兰人。若模型中不包含 $X_{Scottish}$,那么 $X_{Welsh}$ 对比的就是英格兰人和苏格兰人合并后的群体。
对于有序变量的各个水平,同样可以使用虚拟变量。通常
超级会员免费看
订阅专栏 解锁全文
5574

被折叠的 条评论
为什么被折叠?



