申请评分卡模型数据预处理(二)

本文介绍了评分卡模型数据预处理中的变量筛选方法,包括基于IV值的单变量筛选和基于特征重要性的变量筛选,以及多变量分析中的两两相关性和多重共线性分析。通过变量筛选,可以剔除不相关特征,避免线性相关性导致的冗余,提高模型可解释性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

变量筛选

用户的属性有千千万万个维度,而评分卡模型所选用的字段在30个以下,那么怎样挑选这些字段呢?

挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。

其中最主要和最直接的衡量标准是变量的预测能力变量的线性相关性

本文主要探讨基于变量预测能力的单变量筛选,变量两两相关性分析,变量的多重共线性分析。

1.单变量筛选

单变量的筛选基于变量预测能力,常用方法:
基于IV值的变量筛选
基于stepwise的变量筛选
基于特征重要度的变量筛选:RF, GBDT…
基于LASSO正则化的变量筛选

1.1基于单变量的IV值筛选

① 用IV值检验有效性
IV值(信息价值(information value)),是目前评分卡模型中筛选变量最常用的指标之一。

自变量的IV值越大,表示自变量的预测能力越强。类似的指标还有信息增益、基尼(gini)系数等。常用判断标准如下:

在这里插入图片描述

变量第i个分箱的IV值计算公式如下:
〖IV〗_i=(G_i/G-B_i/B)*log⁡〖((G_i/G)/(B_i/B)〗)=(G_i/G-B_i/B)*〖WOE〗_i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值