评分卡模型之多变量分析:相关性与多重共线性处理步骤

评分卡模型中对于特征的相关性与多重共线性问题比较关注,在特征经过WOE编码后,会进一步进行特征的单变量与多变量分析。在单变量分析中,我们可以通过检查变量的IV值,根据IV阈值来判定该变量是否该从特征体系中删除出去。在经过单变量分析后,我们还会进一步进行多变量分析,来检查特征之间的相关性与多重共线性问题,因为相关性与多重共线性问题的存在,可能会造成模型的过拟合问题。

所有的单变量和多变量分析 都是针对经过WOE编码后的特征,也就是最终直接输入到模型进行训练的特征,而不是原始特征

相关性问题处理:

多重共线性问题: 

例如: 在一堆特征 X1,X2,.....Xn的条件下,存在这样一个现象,任意拿出其中的两个特征,经过前期相关性处理后,任意两个特征之间的相关性已经很低,但是放在一起后,就存在共线性的问题,其中某个变量可以由剩余的N个变量的强线性表达,通常用VIF 就可以检测到。

VIF: 针对某个变量计算得到的VIF,其含义是指该变量X拿出来后,剩余的变量构成的组合与目标变量X之间的线性相关度,如果线性相关度越高,VIF的值也会越大,说明目标变量X与剩余的变量之间存在着多重共线性的问题。

具体过程: 

假设有特征变量X1 ~ X7, 我们需要去检验这7个特征的VIF值, 当检验X7特征变量与剩余变量的多重共线性问题时,一般按以下步骤:

1. 把特征变量X7拿出来后,剩余的变量针对X7进行线性回归,求得R方值,然后算出该特征X7的VIF值,利用VIF来衡量剩余的变量组合与该特征变量X7的线性相关度。

2. 一旦存在多重共线性,此时需要进行逐一剔除变量来检验该剔除变量是否导致了多重共线性的问题。

    首先从剩余变量中剔除其中的任意一个变量M,然后再求得剩余变量与目标变量X7之间的R方值,也就是求的VIF值,检验是否还存在多重共线性,如果还存在多重共线性问题,则把M放回,继续取下一个变量N,求的剩余的变量与X7的R方值,直到找到某个变量N拿掉之后,剩余变量与X7的之间的VIF值降低了,说明N和X7之间存在着相关性,此时针对X7,N两个变量 根据IV排序, 删除掉IV值较低的变量; 

    当然我们也可以一次分析两个或两个以上的变量与X7的相关性,比如一次拿出两个变量,看这两个变量拿掉后是否会降低X7的VIF值,一旦存在降低,那么具体分析X7与这两个变量之间的相关性,同时根据IV值来决定如何删除。

值得注意的是,X7的VIF值高的情况下,我们剔除变量不是直接来剔除VIF值高的变量,比如X7,VIF高只能说明该变量X7与剩余变量中的一个或者多个变量存在着相关性,我们需要逐一去检验一个或者多个变量与X7之间的相关性,来寻找需要真正剔除的变量。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值