机器学习 scikit-learn9 - 预测贷款用户是否会逾期 - 特征筛选 IV 和 随机森林

本文介绍了如何利用IV值和随机森林进行特征筛选,以预测贷款用户是否会逾期。核心代码包括IV值计算和随机森林特征重要性评估,并在模型训练后发现性能有所提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 说明

主要是根据 IV值 和 随机森林 这两种方法来挑选特征
代码链接: https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/features/feature_iv_rf.py

2 代码使用方法

sklearn_gcv.py 默认使用Logistic Regression 做示例

  1. 【必须】执行 features 中的 base.py 先把数据处理好 [PS:需要根据实际情况修改]
  2. 【可选】执行 features 中的 feature_iv_rf.py 进行特征筛选
  3. 【必须】再通过 code 中的 sklearn_train.py 训练,观察结果

3 核心代码说明

3.1 IV值挑选特征

关于 IV值的计算方法可以参考这个博客 https://blog.youkuaiyun.com/kevin7658/article/details/50780391/
IV 值 计算参考 https://blog.youkuaiyun.com/l75326747/article/details/84326897
IV值 范围 选择 参考 https://www.jianshu.com/p/bd350351aa5c
在这里插入图片描述

# 计算 IV 函数
def cal_iv(x, y, n_bins=6, null_value=np.nan, ):
    # 剔除空值
    x = x[x != null_value]

    # 若 x 只有一个值,返回 0
    if len(x.unique()) == 1 or len(x) != len(y):
        return 0

    if x.dtype 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值