这篇文章参考了https://blog.youkuaiyun.com/shenxiaoming77/article/details/78771698,如果想要看WOE和IV的例子可以到这里学习。
另外kaggle有一篇特别好的文章,建议大家可以去看看:https://www.kaggle.com/pavansanagapati/weight-of-evidence-woe-information-value-iv
在开始介绍IV前,需要先了解WOE的概念
WOE
WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。
要对一个连续变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:
其中,

WOE(Weight of Evidence)和IV(Information Value)是数据挖掘中用于特征选择的重要指标。WOE是对原始变量的一种编码形式,通过比较不同组间的正负样本比例差异。IV则衡量自变量对模型预测能力的贡献,值越大,预测能力越强。在处理分组时,应注意避免出现响应比例为0或100%的情况,以防止WOE取值无限大导致IV失去意义。
最低0.47元/天 解锁文章
2427

被折叠的 条评论
为什么被折叠?



