逻辑回归:原理、应用与案例分析
1. 引言与目标
在之前的分析方法中,我们探讨了多种统计方式来描述变量间的关系。相关分析用于衡量两个定比变量间关系的强度和方向,单线性回归则是相关分析的延伸,它能基于已有数据预测未知事件,例如根据每日温度预测公共游泳池的客流量。而多元线性回归进一步拓展,允许使用多个自变量来预测因变量的值,像在游泳池的例子中,相对湿度和云量百分比也可能影响客流量。在单线性回归和多元线性回归中,因变量通常是定比变量。
现在我们进入逻辑回归的主题。在逻辑回归里,因变量是名义变量,具体来说是只有两个类别的分类变量,这通常意味着某件事发生或不发生,比如学生考试通过或失败、患者接受实验治疗后存活或死亡、登山队登顶或未登顶等。SPSS 中这种回归的专业名称是二元逻辑回归。和单线性回归、多元线性回归一样,逻辑回归既可以使用单个自变量,也能使用多个自变量。在本文中,我们将展示多个不同层次自变量的例子,这些都能由 SPSS 程序轻松处理。
数据假设方面,逻辑回归不像单线性回归和多元线性回归那样严格,不要求数据呈正态分布和具有相等的方差。但当自变量众多而样本量较小时,样本量可能成为问题,这种情况常导致综合卡方检验中出现空单元格,进而给分析带来严重问题。若自变量数量较多,可考虑增加样本量或减少变量数量。此外,极端值也是需要关注的点,最好在回归分析中剔除异常值。最重要的一点是多重共线性,即自变量之间存在高度相关性。理想情况是自变量之间的相关系数较弱,而自变量与因变量之间的相关性为中度到强。
除了二元逻辑回归,还有允许因变量有多个层次(类别)的逻辑回归方法,称为多项逻辑回归。由于我们这里处理的因变量只有两个类别,所以使用的是二元逻辑回归。
2. 研究场景与测试选择
一位成功的房地产销售女士萨莉,想找到一种方法来预测与潜在购房者的首次会面是否最终会促成交易。她咨询了身为退休统计学教授的父亲,父亲认为某种回归方程或许能解决问题。萨莉和父亲讨论了一些关键变量,这些变量在与潜在购房者的初次会面时通常会被收集,他们有 30 个这样的接触数据,涉及以下四个变量:
1. 潜在购房者是否已获得贷款预批准?(编码:0 = 否,1 = 是)
2. 他们是否提问——是否感兴趣?(编码:0 = 否,1 = 是)
3. 他们有多少首付资金?(以千美元为单位)
4. 他们最终是否从你这里购买了房子?(编码:0 = 否,1 = 是)
父女俩决定将这些问题作为自变量,尝试预测因变量的二元结果,即销售成功或失败(编码:0 = 否,1 = 是)。这项研究旨在基于名义和定比层次的自变量开发一个方程,而因变量是离散的(名义变量),逻辑回归是适合这种分析的选择。
3. 研究问题与零假设
基于逻辑回归的这项研究,目标是根据方程中所选变量提供的信息准确预测特定案例的结果。主要有两个问题需要研究:
1. 如果我们知道客户是否已获得贷款预批准、是否表现出购买兴趣(通过提问)以及客户有多少首付资金,能否预测客户是否会购买房子?
2. 如果我们能准确预测结果,哪些变量是最重要的?哪些变量似乎会增加或减少购房的可能性?
零假设与备择假设(研究问题)相反,即预先了解所选变量并不能帮助预测客户是否会购买房子。
4. 数据输入、分析与输出解释
4.1 数据输入
我们从萨莉在几周内随机选择的客户接触数据输入开始,为开发预测方程做准备。具体操作步骤如下:
1. 启动 SPSS,点击“文件”,选择“新建”,然后点击“数据”。
2. 若“变量视图”标签未被选中,点击该标签。
3. 输入所有变量信息,务必按照提示为三个分类变量输入所有值和值标签。
4. 点击“数据视图”标签,输入所有数据(记住,0 表示感兴趣的特征不存在,1 表示存在)。
5. 输入并检查所有数据的准确性后,点击“文件”,点击“另存为”,在“文件名”框中输入“房地产逻辑回归”,然后点击“保存”。
4.2 多重共线性分析
在开始正式分析前,我们先检查数据的多重共线性,即查看自变量之间是否存在高相关性。自变量之间较小的相关性往往会增加回归方程的实用性,而自变量与因变量之间的高相关性对回归方程有积极影响。操作步骤如下:
1. 点击“分析”,点击“相关”,然后点击“双变量”(“双变量”窗口打开)。
2. 将所有四个变量移至“变量”框。
3. 在“相关系数”面板中,取消勾选“皮尔逊”,然后勾选“斯皮尔曼”旁边的框。
4. 点击“确定”(输出查看器打开)。
点击“确定”后,输出查看器会显示一个包含所有所选变量相关性的表格。从表格中可以看出,相关系数的模式基本符合要求,即自变量之间相关性较低,自变量与因变量之间相关性较高。不过,“购买兴趣”和“首付金额”这两个自变量之间的相关性为 0.373,但我们认为其影响较小,决定保留该方程并继续进行回归分析。
4.3 逻辑回归分析
假设 SPSS 正在运行且房地产数据库已打开,进行逻辑回归分析的步骤如下:
1. 点击“分析”,选择“回归”,然后点击“二元逻辑”(“逻辑回归”窗口打开)。
2. 点击“购买”,然后点击“因变量”框旁边的箭头。
3. 点击“预批准”,然后点击“协变量”框旁边的箭头。
4. 点击“购买兴趣”,然后点击“协变量”框旁边的箭头。
5. 点击“首付金额”,然后点击“协变量”框旁边的箭头。
6. 点击“分类”按钮(“逻辑回归:定义分类变量”窗口打开)。
7. 点击“预批准”,然后点击将变量移至“分类协变量”框的箭头。
8. 点击“购买兴趣”,然后点击将其移至“分类协变量”框的箭头。
9. 再次点击“预批准”(使其高亮显示),然后在“更改对比”部分点击“第一”,接着点击“更改”。
10. 点击“问题(购买兴趣)”,然后点击“更改”。
11. 点击“继续”(返回“逻辑回归”窗口)。
12. 确保“方法”部分显示“输入”,然后点击“确定”(输出查看器打开)。
点击“确定”后,输出查看器会生成许多表格,我们只关注与开发预测方程直接相关的表格。首先来看“块 0:起始块”下的两个表格。
“块 0”只是报告了 SPSS 程序在不使用任何自变量的情况下预测结果(购买或不购买)的情况,它仅查看样本中购买或未购买房子的个体百分比。在“分类表”中,我们可以看到 76.7% [ (30 - 7) / 30 ] 这个数值,它显示了 SPSS 最初预测无人购买房子与实际观察到的购买者数量之间的差异。该程序根据观察到的购买者数量(7 人)确定,预测无人购买房子的准确率为 76.7%。我们希望在方程中加入自变量后,预测能力会提高,这个百分比值会增加。
“块 0”部分的下一个表格是“方程中的变量”,它呈现了 Wald 统计检验的结果。由于该结果仅使用了方程中的常数项(未使用任何自变量),其用途有限,但可作为参考点。结果显示 Wald 统计量为 7.594,在 0.006 的水平上显著。
接下来,我们查看“块 1:方法 = 输入”下更有趣的部分。这里的表格报告了将自变量插入方程后的结果。第一个表格“模型系数综合检验”表明,我们的模型整体拟合良好,因为它超过了 SPSS 在“块 0”中预测无人购买房子的结果。该表格报告的拟合优度检验显示,卡方统计量为 16.843,自由度为 3,样本量 N = 30,显著性水平 p < 0.001。p 值为 0.001 表明拟合优度检验是可信的,证明我们有一个有价值的模型。
“模型摘要”表格提供了自变量插入后模型实用性的额外信息。“-2 对数似然”列显示的值为 15.754,这个值较小是比较好的,因为这类值很容易达到数百,所以我们对 15.754 这个检验值感到满意,它增加了我们模型的可信度。关于 Cox & Snell R 方和 Nagelkerke R 方检验的值存在一些争议,一些分析师认为它们不像多元回归中的真正 R 方值,SPSS 将它们称为伪 R 方值。我们报告这些值,是因为它们为我们的模型提供了额外的、尽管有一定局限性的证据。检验值 0.430 和 0.648 表明,自变量解释了因变量 43% 到 64.8% 的变异性。
一些统计学家认为,Hosmer - Lemeshow 拟合优度检验是评估逻辑回归模型拟合度的最佳方法。为了使该检验证明模型拟合良好,我们需要不拒绝零假设,因此我们希望“显著性”列中的值大于 0.05。表格显示卡方值为 5.654,自由度为 8,显著性水平为 0.686,这为我们的模型可靠性提供了额外证据。
“分类表”的作用与“块 0”中的类似,但这次显示的是插入自变量后的结果。对于这个特定案例,我们想知道在计算中使用自变量时,预测购买类别的成功率如何。如果我们将对角线上的“是”答案相加(2 + 1),从总数(30)中减去这个和,然后除以总数(30),得到新的整体预测百分比为 90.0%,这比之前的 76.6% 提高了 13.4 个百分点,进一步证明了我们方程的实用性。
最后一个回归输出表格是“方程中的变量”,它展示了每个自变量对方程的贡献。查看该表格时,我们应特别关注“显著性”列。我们发现自变量“预批准”和“问题(购买兴趣)”的显著性水平分别为 0.030 和 0.036,这表明这两个变量对回归模型有显著贡献。而“首付金额”变量的显著性水平为 0.351,对回归方程没有贡献。“B”列指定了变量贡献的权重,“预批准”为 3.288,“问题”为 3.176,正如预期的那样,“首付金额”的权重几乎为 0.021。
最初的研究问题是基于三个变量能否预测个人是否会购买房子。开发的模型使用了三个自变量:(1)“贷款预批准”(分类/名义变量)、(2)“购买兴趣”(分类/名义变量)和(3)“可用首付金额”(连续/定比变量),因变量是二元(分类/名义)变量,即是否购买房子。
包含所有变量的整体模型通过卡方检验(自由度为 3,样本量 N = 30,统计量为 16.843,显著性水平为 0.001)被证明具有统计学意义。购买行为的最强预测因素是“贷款预批准”和“购买兴趣”这两个变量,通过 Wald 统计量分别在 0.030 和 0.036 的水平上显著。“首付金额”变量在 0.351 的水平上不显著。
在分析萨莉的房地产数据时,我们计算了所有自变量和因变量之间的斯皮尔曼相关系数,唯一需要关注的相关性是“首付金额”和“购买兴趣”之间的 0.373。我们决定将这两个变量都保留在方程中,发现它对回归方程没有显著影响。我们还在不使用“首付金额”变量的情况下运行了逻辑回归,SPSS 输出的变化不显著。使用“购买兴趣”和“预批准”这两个变量时,整体方程的综合检验产生的卡方检验值为 15.911,自由度为 2,显著性水平为 0.000。因此,“首付金额”变量可以从方程中剔除。
5. 总结
本文完成了相关分析和回归分析的系列内容,展示了使用多个自变量和单个二元因变量的逻辑回归。我们开发了一个方程,帮助房地产销售人员根据客户的“购买兴趣”水平和是否“获得贷款预批准”来识别潜在买家。第三个变量“可用首付金额”也进行了检验,发现它对回归方程没有积极影响。
6. 回顾练习
- 空军少校的问题 :空军少校想找到一种方法来预测特定飞行员在入伍 4 年内是否会晋升为中士。他有入伍前个人的许多特征数据,选择了三个他认为可能有助于确定早期晋升的变量。他随机选择了 30 个人并收集了所需信息。你的任务是开发一个预测方程,帮助少校预测年轻飞行员的早期晋升情况,并写出研究问题、零假设和备择假设。
- 社会科学家的研究 :一位社会科学家想开发一个方程,预测男学生是否能成功获得毕业舞会的约会。科学家可以访问许多学生记录,随机选取了 40 名学生。她选择了四个她认为可以预测男学生是否能获得约会的特征,这是一个二元结果。你的工作是选择正确的统计方法,然后帮助社会科学家开发方程,并写出研究问题、零假设和备择假设。
- 电话公司的分析 :你是一名统计顾问,受雇帮助电话公司高管找到一种方法来预测客户是否会订购寻呼服务。根据以往经验,高管认为使用语音邮件、来电显示和电子账单的客户也倾向于使用寻呼服务。他寻求统计证据和书面方程来支持他的直觉,并希望利用分析得出的任何方程为未来客户进行预测。请选择合适的统计方法,打开数据库,选择变量,进行分析,然后解释结果。
以下是一个简单的流程图,展示了逻辑回归分析的主要步骤:
graph LR
A[数据输入] --> B[多重共线性分析]
B --> C[逻辑回归分析]
C --> D[结果解释]
下面是一个总结自变量对购房预测影响的表格:
| 自变量 | 显著性水平 | 贡献权重 | 是否显著贡献 |
| ---- | ---- | ---- | ---- |
| 预批准 | 0.030 | 3.288 | 是 |
| 购买兴趣 | 0.036 | 3.176 | 是 |
| 首付金额 | 0.351 | 0.021 | 否 |
逻辑回归:原理、应用与案例分析
7. 逻辑回归的深入理解
逻辑回归作为一种强大的统计分析工具,在众多领域都有广泛应用。其核心在于处理因变量为二元分类的情况,通过建立自变量与因变量之间的关系,实现对特定事件发生概率的预测。
从数学原理上讲,逻辑回归使用逻辑函数(也称为 sigmoid 函数)将线性回归的输出转换为概率值。逻辑函数的表达式为:
[ P(Y = 1|X) = \frac{1}{1 + e^{-( \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_nX_n)}} ]
其中,( P(Y = 1|X) ) 表示在给定自变量 ( X ) 的情况下,因变量 ( Y = 1 ) 的概率;( \beta_0 ) 是截距,( \beta_1, \beta_2, \cdots, \beta_n ) 是自变量 ( X_1, X_2, \cdots, X_n ) 的系数。
逻辑回归的优势在于其结果易于解释。系数 ( \beta_i ) 表示在其他自变量保持不变的情况下,自变量 ( X_i ) 每增加一个单位,事件发生的对数几率(log odds)的变化量。通过指数化系数,我们可以得到优势比(odds ratio),它表示自变量每增加一个单位,事件发生的优势(odds)的变化倍数。
8. 逻辑回归在不同场景中的应用拓展
8.1 医疗领域
在医疗研究中,逻辑回归可用于预测患者是否会患上某种疾病。例如,研究人员可以收集患者的年龄、性别、血压、血糖等信息作为自变量,以是否患有心脏病作为因变量。通过逻辑回归分析,可以确定哪些因素对心脏病的发生影响最大,从而为疾病的预防和治疗提供依据。
8.2 金融领域
在金融风险评估中,逻辑回归可用于预测客户是否会违约。银行可以收集客户的信用评分、收入水平、负债情况等信息作为自变量,以客户是否会逾期还款作为因变量。通过建立逻辑回归模型,银行可以评估客户的违约风险,从而决定是否给予贷款以及贷款的额度和利率。
8.3 市场营销领域
在市场营销中,逻辑回归可用于预测客户是否会购买某种产品。企业可以收集客户的年龄、性别、消费习惯、广告曝光次数等信息作为自变量,以客户是否会购买产品作为因变量。通过逻辑回归分析,企业可以了解哪些因素影响客户的购买决策,从而制定更有效的营销策略。
9. 逻辑回归的局限性与应对策略
虽然逻辑回归是一种实用的分析方法,但它也有一些局限性。
9.1 线性假设
逻辑回归假设自变量与因变量之间存在线性关系。如果实际关系是非线性的,逻辑回归模型的拟合效果可能不佳。应对策略是对自变量进行变换,如对数变换、平方变换等,或者使用更复杂的模型,如决策树、神经网络等。
9.2 多重共线性
如前文所述,多重共线性会影响逻辑回归模型的稳定性和解释性。可以通过计算方差膨胀因子(VIF)来检测多重共线性的程度,当 VIF 值大于 10 时,表明存在严重的多重共线性。应对策略包括删除高度相关的自变量、进行主成分分析等。
9.3 样本不均衡
在某些情况下,因变量的两个类别样本数量可能差异很大,即样本不均衡。这会导致模型偏向于多数类,对少数类的预测效果较差。应对策略包括过采样(如 SMOTE 算法)、欠采样、调整分类阈值等。
10. 逻辑回归与其他分析方法的比较
| 分析方法 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|
| 逻辑回归 | 因变量为二元分类,自变量与因变量呈线性关系 | 结果易于解释,计算效率高 | 对非线性关系拟合不佳,受多重共线性影响 |
| 决策树 | 自变量与因变量关系复杂,可处理非线性关系 | 无需对数据进行预处理,能处理缺失值 | 容易过拟合,模型解释性相对较弱 |
| 神经网络 | 处理复杂的非线性关系,适用于大规模数据 | 拟合能力强,能自动提取特征 | 模型复杂,训练时间长,解释性差 |
11. 未来趋势与展望
随着数据量的不断增加和计算能力的提升,逻辑回归在数据分析领域仍将发挥重要作用。同时,结合深度学习、机器学习等技术,逻辑回归的应用范围将进一步拓展。例如,将逻辑回归与神经网络相结合,可以在保证模型解释性的同时,提高模型的预测性能。
此外,逻辑回归在实时数据分析、大数据处理等方面也有很大的发展潜力。未来,我们可以期待逻辑回归在更多领域得到应用,为解决实际问题提供更有效的支持。
以下是一个展示逻辑回归应用流程的 mermaid 流程图:
graph LR
A[确定研究问题] --> B[收集数据]
B --> C[数据预处理]
C --> D[模型建立]
D --> E[模型评估]
E --> F{模型是否合格}
F -- 是 --> G[应用模型]
F -- 否 --> C
通过以上内容,我们对逻辑回归有了更全面的了解,包括其原理、应用、局限性以及与其他方法的比较。在实际应用中,我们应根据具体问题选择合适的分析方法,以获得更准确的结果。希望本文能为你在数据分析和决策中提供有益的参考。
超级会员免费看

被折叠的 条评论
为什么被折叠?



