【数据挖掘】使用C4.5决策树实现信贷用户逾期预测功能(含源码+报告)

题目要求

本次设计要求实现信贷用户逾期预测功能。具体要求如下:利用所学数据挖掘算法对给定数据进行训练得出信用评估模型,依据模型对1000个贷款申请人是否逾期做出预测(0-未逾期 1-逾期)。

数据说明

数据概述 :

数据包括脱敏后的个人基本信息、持卡信息、消费信息及信贷信息等。详见字段解释.xlsx。 

数据结构和数据规模 :

数据分为训练集和验证集。 详见model.csv和test.csv

 

 

  • 编程环境及语言

编程环境:Python 3.5   Jupyter  

语言:Python

  • 算法思想

决策树构造的基本思想就是随着树深度的增加,节点的熵迅速地降低。熵降低的速度越快越好,这样我们就可以得到一棵高度最矮而且有效的决策树。

C4.5算法的思想:

  1. 从根节点开始,对节点计算所有可能的特征的信息增益率,选择信息增益率值最大的特征作为节点的划分特征;
  2. 由该特征的不同取值建立子节点;
  3. 再对子节点递归地调用以上方法,构建决策树;
  4. 到所有特征的信息增益率都很小或者没有特征可以选择为止,得到最终的决策树

 

  • 算法伪码

#数据读取及预处理

dataf=pda.read_csv(fname,encoding="gbk")

#数据预处理,缺失的空值填上平均值

dataf.iloc[:,2:201]=dataf.iloc[:,2:201].fillna(dataf.iloc[:,2:201].median())

#划分训练数据测试数据

Xtrain,Xtest,Ytrain,Ytest = train_test_split(xf,yf,test_size=0.1)

#构建决策树

clf=tr

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值