Datawhale&天池贷款违约预测——Task1赛题理解
文章目录
目录
1 赛题理解
贷款违约预测是赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判
断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解
决实际问题。
1.1 比赛目的
参加这次比赛目的就是入门金融风控的知识,增加知识储备。
1.2 赛题简要介绍
赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过
120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
详细信息参考链接: 比赛链接.
1.3 相关评价指标
赛题最终评价指标提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果。
AUC定义为ROC曲线下方与坐标轴围成的面积。
AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
1.4 分类算法常用的评价指标
-
混淆矩阵
若实例为正类,预测为正类,即为真正类(TP)
若实例为正类,预测为负类,即为假负类(FN)
若实例是负类,预测为正类,即为假正类(FP)
若实例是负类,预测为负类,即为真负类(TN) -
准确率(accuracy)
准确率是常用的一个评价指标,预测正确的样本数占总预测样本数的比值,不适合样本不均衡的情况。因为如果我们的正负样本数目差别很大,比如正样本1000个,负样本99000个,那么直接把所有的样本都预测为负, 准确率为99%,但是此分类模型实际性能是非常差的,因为它把所有正样本都分错了。
a c c u r a c y = T P + T N T P + T N + F P + F N accuracy=\cfrac{TP+TN}{TP+TN+FP+FN} accuracy=TP+TN+FP