逻辑回归:原理、应用与诊断
逻辑回归是一种用于研究二项式或二元数据的实用方法。它通过对二项式数据的参数 $p$ 进行建模,帮助我们理解和预测各种现象。下面将详细介绍逻辑回归的相关内容,包括其原理、应用场景以及诊断方法。
逻辑回归基础
逻辑回归主要用于处理二项式或二元数据。在逻辑回归中,我们不是直接建立结果概率的线性模型,而是建立对数几率(log-odds)的线性模型。对数几率也被称为 logit,它是 $log(p/(1 - p))$,其中 $p$ 是事件发生的概率。
另一个与逻辑回归相关的概念是 probit 模型,它将累积正态分布建模为协变量的线性函数。logit 和 probit 具有相似的曲线形状,并且在大多数情况下会产生近似相同的拟合模型,只是回归系数(betas)的测量尺度不同。当测量的概率接近 0 或 1 时,两者的差异会更明显。
逻辑回归的应用案例
纽约大都会队比赛胜负分析
表 8.4 展示了纽约大都会队 2007 赛季截至 6 月 3 日的比赛胜负记录。从表面上看,比赛胜负是二元结果,比赛编号可作为解释变量,符合逻辑回归的数据形式。然而,深入分析会发现一些潜在问题。因为并非所有比赛的对手都相同,而且球队阵容会因投手休息等因素而变化。因此,除了比赛编号,还可以考虑比赛是“主场”还是“客场”以及对手实力等额外的解释变量。
graph LR
A[比赛编号] --> B[比赛胜负]
C[主场/客场] --> B
D[对手实力] --> B
超级会员免费看
订阅专栏 解锁全文
1485

被折叠的 条评论
为什么被折叠?



