信用卡违约客户的预测模型的选择(二)验证过程

本文介绍了一个基于UCI数据集的信用卡违约预测模型的验证过程。通过拆分数据集,选取相关性高的变量如LIMIT_BAL、PAY_1至PAY_6,并进行数据预处理,如归一化和类别化,以构建预测模型。

验证过程

该数据集包含23个输入变量(input variable)和一个响应变量(response variable)。该数据集来源于UCI machine learning repository,为某银行的信用卡客户信息数据,共有30000个样本,包括过去六个月的账单还款情况。

 

Y:下个月还款违约情况(1=逾期,0=未逾期)

X1:信用额度,包括其个人和家庭补充信用。

X2:性别(1=male;2=female)

X3:教育(1=研究生,2=大学,3=高中,4=其他)

X4:婚姻状况(1=已婚,2=单身,3=其他)

X5:年龄,age

X6-X11:过去六个月的还款情况。X6(2005年九月还款情况)。。。X11(2005年四月还款情况)。其中XN=-1,代表按时还款,XN=1,代表延时一个月还款,XN=2,代表延时两个月还款,。。。,XN=n,代表延时n个月还款,

X12-X17:过去六个月的账单数额情况。X12(2005年九月账单数额情况)…X11(2005年四月账单数额情况)。

X18-X23:过去六个月的还款数额情况。X18(2005年九月还款数额情况)…X23(2005年四月还款数额情况)。

环境配置

操作系统:windows7+64位

内存:4G

Cpu: intel core i5@2.6GHz2.6GHz

Python version: python 3.6.0

Python平台:pycharm


首先获取数据,将原始csv文件转化为txt文件,逐行读取数据,为利于后期回归运算将变量格式的数据统一转化为float格式。在变量选取中我们本着类别变量均等,训练矩阵随机,训练与测试矩阵28原则。

如下:

float(listFromLine[i])

分别定义标签矩阵和变量矩阵,读入客户数据。

此模型预测变量为01。其中类别为1的变量6636个,类别为0的变量23364个。我们选择相等的两类样本数01分别6600个。

首先进行数据集进行拆分,使用sklearncross_validation进行数据拆分。

from sklearn.cross_validationimport tra

背景描述 本项目采用了UCI数据仓库,这是一个自1970年代中期以来广泛使用的公认资源。它在学术界享有盛誉,因其数据集涵盖了从生物信息学到社会科学等多个领域的真实世界问题,确保了研究成果的实用性和相关性。我们可以通过 Python 中的 ucimlrepo 库直接访问这些数据集,这样显著提高了数据获取的效率,简化了预处理流程,从而让我们能够迅速投入到实证分析中去。 而且还有还很重要的一点:该数据集的普及性和熟悉度为我们的研究提供了一个共同的基准,使得方法论的通用性和比较性得到加强。同时,数据的真实性和可复刻性也为项目带来了额外的价值。我们的分析不仅可以由同行学者验证,而且还可以促进知识的积累,为未来的科学探索提供基石。这种方法论和数据来源的选择可以确保你的项目或者算法能够在数据科学界得到广泛的认可和应用。 数据说明 这份数据是 uci 数据仓库中的 Default of credit card clients 数据集。读取方法可以参考我的相关项目。 该数据集包含 30,000 名客户及其在台湾一家银行的信用卡交易数据。除了客户的静态特征外,该数据集还包含某年4月至9月的信用卡账单支付历史,以及客户信用卡的余额限制。目标是客户是否会在接下来的一个月,即该年10月拖欠信用卡付款。 ID:信用卡客户ID号 LIMIT_BAL:以新台币计算的信贷金额(包括个人和家庭/补充信贷)/ 信用卡限额 SEX: 性别 (1代表男性,2代表女性) EDUCATION:受 教育程度(1=研究生, 2=大学, 3=高中, 4=其他 5=未知, 6=未知) MARRIAGE:婚姻状况(1=已婚,2=单身,3=其他) AGE:年龄 X1:信用额度,包括其个人和家庭补充信用 X2:性别(1=male;2=female) X3:教育(1=研究生,2=大学,3=高中,4=其他) X4:婚姻状况(1=已婚,2=单身,3=其他) X5:年龄,age X6-X11:过去六个月的还款情况。X6-X11为9-4月的还款情况。其中,-1,代表按时还款;1,代表延时一个月还款;2,代表延时两个月还款.......依次类推,XN=n,代表延时n个月还款, X12-X17:过去六个月的账单数额情况。X12-X17为9-4月账单数额情况 X18-X23:过去六个月的还款数额情况。 X18-X23为9-4月还款数额情况 Y:目标属性,客户下个月还款违约情况(1=逾期,0=未逾期) 通常会用于分类模型,应用场景十分广泛。尤其适用于金融机构在风险评估和信贷审批过程中,以判断客户是否有资格获得其他贷款产品,例如汽车贷款。通过包含的23个输入变量,如信用额度、性别、教育程度等,以及目标变量,即客户的还款违约情况,研究者能够对信用风险进行准确评估。这些细致的数据为研究者提供了理解和预测客户行为的全面视角。
评论 7
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值