SPSS(八)logistic回归(图文+数据集)

本文详细介绍了SPSS中的Logistic回归模型,包括模型简介、案例分析、哑变量编码和SPSS逻辑回归的补充内容。通过低出生体重儿影响因素的案例,展示了Logistic回归在分类因变量分析中的应用,探讨了Walds检验、似然比检验和比分检验在变量筛选中的作用,以及哑变量编码的重要性。此外,还提及了Logistic回归中的交互作用研究。

SPSS(八)logistic回归

我们之前的线性回归也好、线性回归衍生方法也好、非线性回归也好,因变量的类型都是连续性的,假如因变量的类型是分类的呢?logistic回归针对的是二分类的因变量

logistic回归

  • 基于线性回归模型发展而来

线性回归研究的是连续性因变量与自变量之间的关系

  • 有的时候因变量为分类变量,需要研究该分类变量与一组自变量之间的关系

以治疗效果为因变量,结局为治愈/未治愈

如果使用新的宣传方式,决定戒烟的概率是否更高?

 

模型简介

平常的线性回归方程表达式如下

假如我们也是用这种来预测发生概率,则其表达式为

但是在现实情况中,发生率P为因变量,它与自变量之间通常不存在线性关系(一般是两边不敏感,中间敏感,比如收入与轿车拥有率),而且上面表达式不能保证在自变量的各种组合下,因变量的取值仍限制在0~1内,所以数学家们为了解决遇到的这两个问题,将想方设法想找到一种变量变换,能让上式的发生率限制在0~1内,而且两边不敏感,中间敏感,到最后找到了一种变换,将上式的因变量进行如下转换,就能解决我们遇到的问题

所以上面的表达式可以写成

α是常数项,表示自变量取值全为0时,比数(Y=1Y=0的概率之比)的自然对数值

Betalogistic回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起比数比(OR)自然对数值的变化量,当概率比较低时候,可以理解概率会上升为原来的几倍

为什么可以直接挂等号呢?当p取0时,趋于负无穷,p取1/2时为0,p取1时趋于正无穷,等式两边值域取值相等

当是上面这个公式和我们平常做回归有什么区别呢?

由于因变量为二分类,所以误差项服从二项分布,而不是正态分布,因此,常用的最小二乘法也不再适用,要用迭代方法估计

 

模型用途

 

案例:低出生体重儿影响因素

 HosmerLemeshow1989年研究了低出生体重婴儿的影响因素

  • 影响因素分析,求出哪些自变量对因变量发生概率有影响。并计算各自变量对因变量比数
  • 作为判别分析方法,来估计各种自变量组合条件下因变量各类别的发生概率,从而对结局进行预测。模型在结果上等价于判别分析

结果变量为是否娩出低出生体重儿(变量名为LOW1,低出生体重,即婴儿出生体重<2500克、0,非低出生体重)

考虑的影响(自变量)有:

  • 产妇妊娠前体重(
### SPSS中有序Logistic回归的数据预处理方法 在SPSS中进行有序Logistic回归之前,数据预处理是一个至关重要的步骤。以下是关于如何准备数据以便于执行有序Logistic回归的具体说明: #### 1. 数据编码调整 对于有序Logistic回归而言,因变量通常具有多个类别,并且这些类别之间存在自然顺序关系(例如低、中、高)。如果原始数据未按照这种逻辑进行编码,则需要对其进行重新定义。例如,在某些情况下可能需要将字符串型分类转换成数值形式以满足算法需求[^1]。 #### 2. 缺失值处理 缺失值的存在会影响最终模型的质量以及预测效果。因此,在正式构建模型前应该考虑采用适当策略来解决这一问题,比如删除含有大量空白字段的记录或者利用均值填补等方式替代丢失的信息[^2]。 #### 3. 变量标准化/规范化 当自变量间尺度差异较大时(如年龄范围从几岁到几十岁不等),建议先实施标准化操作使得各个维度处于相同数量级下再参与计算过程;这样有助于加快收敛速度并减少共线性风险。 #### 4. 多重共线性的检测与消除 为了保证参数估计的有效性,还需要注意是否存在严重的多重共线现象——即两个及以上解释因子高度相关联的情况。可以通过方差膨胀因子(VIF)指标加以判断,一旦发现异常则可尝试移除冗余特征或将它们组合形成新的综合衡量标准。 #### 5. 类别型自变量哑化 针对那些非连续型输入要素(诸如性别),应当创建对应的虚拟变量(dummies variables),从而让软件能够正确解读其贡献度大小及其方向性影响[^3]。 ```python import pandas as pd from sklearn.preprocessing import OneHotEncoder # 假设df是我们读取后的DataFrame对象 encoder = OneHotEncoder() encoded_data = encoder.fit_transform(df[['category_column']]).toarray() dummy_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(['category_column'])) final_df = pd.concat([df.drop('category_column', axis=1), dummy_df], axis=1) ``` 以上就是在运用SPSS开展有序Logistic回归之前的几个主要准备工作要点概述。
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路易三十六

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值