Datawhale&天池贷款违约预测——Task1赛题理解

本文主要解析Datawhale与天池联合举办的贷款违约预测Task1赛题,介绍了比赛目的、赛题内容、相关评价指标,如AUC、ROC曲线、KS值,并探讨了分类算法的评价标准,帮助读者理解金融风控中的实际问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Datawhale&天池贷款违约预测——Task1赛题理解

文章目录

1 赛题理解

贷款违约预测是赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判
断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解
决实际问题。

1.1 比赛目的

参加这次比赛目的就是入门金融风控的知识,增加知识储备。

1.2 赛题简要介绍

赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过
120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。
详细信息参考链接: 比赛链接.

1.3 相关评价指标

赛题最终评价指标提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果。
AUC定义为ROC曲线下方与坐标轴围成的面积。
AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

1.4 分类算法常用的评价指标

  1. 混淆矩阵
    若实例为正类,预测为正类,即为真正类(TP)
    若实例为正类,预测为负类,即为假负类(FN)
    若实例是负类,预测为正类,即为假正类(FP)
    若实例是负类,预测为负类,即为真负类(TN)

  2. 准确率(accuracy)
    准确率是常用的一个评价指标,预测正确的样本数占总预测样本数的比值,不适合样本不均衡的情况。因为如果我们的正负样本数目差别很大,比如正样本1000个,负样本99000个,那么直接把所有的样本都预测为负, 准确率为99%,但是此分类模型实际性能是非常差的,因为它把所有正样本都分错了。
    a c c u r a c y = T P + T N T P + T N + F P + F N accuracy=\cfrac{TP+TN}{TP+TN+FP+FN} accuracy=TP+TN+FP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值