逻辑回归与儿童白血病持续缓解预测
逻辑回归基础与分离问题
在逻辑回归中,标准误差变得更加合理是一个重要的考量。对于单个协变量 X,通过对其值进行排序并与 Y 值进行比较,能够轻松检测到完全或准完全分离的情况。而当存在多个协变量时,可以使用特定算法来确定最大似然估计是否存在。
在实际数据集中,完全或准完全分离的情况并不常见,因为这种情况几乎只在二分协变量时才会出现。不过,当对小数据集或稀疏数据集进行回归并估计多个参数时,分离出现的概率就不容忽视了。
对于二分协变量,可通过分析相应的列联表来检测分离情况。以神经生理学的例子来说,我们想要确定运动神经元影响下肌梭放电的预测因素。感兴趣的协变量包含在求和与恢复函数中,可通过特定的逻辑回归模型同时研究这些协变量对系统放电的影响。
在α运动神经元数据集的例子中,常用的软件包大多会失效,原因是最大似然估计不存在。这是因为协变量 Xt - 13 取值为 1 的所有观测都出现在输出尖峰缺失(Y = 0)的情况下,对应的列联表中 Xt - 13 = 1 且 Y = 1 的单元格为空,这种单个单元格频率为零的情况就表明存在准完全分离。这一情况会给最大似然法带来问题,它会将 Xt - 13 作为完美预测因子,并试图将 a13 的估计值设为 -1,这会导致极端估计和非常大的标准误差。
精确逻辑回归
精确逻辑回归由 Cox 在 1970 年提出,它基于消除似然函数中剩余的参数,并以其充分统计量为条件进行参数估计。似然函数可以表示为:
[P(Y_1 = y_1, Y_2 = y_2, \ldots, Y_n = y_n) = \frac{\exp(\sum_{s = 0}^{p} \be
超级会员免费看
订阅专栏 解锁全文
1757

被折叠的 条评论
为什么被折叠?



