关于数据挖掘中“多重共线性”的确定方法(有图有真相)

回归分析在数据挖掘中的应用受到多重共线性的影响。通过散点图和相关性系数分析,揭示了特征间的多重共线性可能导致模型可信度下降。在SPSS中进行共线性诊断,通过条件指数判断共线性严重程度,指数大于10时需警惕。案例展示了如何在实际操作中识别和处理多重共线性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

回归分析是数据挖掘中最基本的方法,其中基于普通最小二乘法的多元线性回归要求模型中的特征数据不能存在有多重共线性,否则模型的可信度将大打折扣。但是就是技术而言,如何确定模型中的各各特征之间是否有多重共线性呢?

先来看一组数据


我们能否用这组数据来建立多元线性回归模型呢?现在这组数据的问题还不十分明显,我们不妨用最简单的交叉散点图来透视一下数据可能存在的问题。于是我们在R中绘制了下图:


从散点图中我们可以看出每个解释变量都与被解释变量有较明显的线性关系,而且这也是我们所希望看到的。但是两个解释变量之间似乎也呈现出了某种线性关系。事实上,如果计算两个解释变量之间的相关性系数,可知它们的线性相关系数高达 ,这也就意味着严重的多重共线性。在构建多元

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白马负金羁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值