赛题数据
赛题数据来自某信贷平台的贷款记录,总数据量超过 120 万条,包含 47 列变量信息,其中 15 列为匿名变量。从中抽取 80 万条作为训练集,20 万条作为测试集A,20 万条作为测试集B,同时会对 employmentTitle、purpose、postCode 和 title 等信息进行脱敏。
字段表:
| 字段名 | 描述 |
|---|---|
| id | 为贷款清单分配的唯一信用证标识 |
| loanAmnt | 贷款金额 |
| term | 贷款期限(year) |
| interestRate | 贷款利率 |
| installment | 分期付款金额 |
| grade | 贷款等级 |
| subGrade | 贷款等级之子级 |
| employmentTitle | 就业职称 |
| employmentLength | 就业年限(年) |
| homeOwnership | 借款人在登记时提供的房屋所有权状况 |
| annualIncome | 年收入 |
| verificationStatus | 验证状态 |
| issueDate | 贷款发放的月份 |
| purpose | 借款人在贷款申请时的贷款用途类别 |
| postCode | 借款人在贷款申请中提供的邮政编码的前3位数字 |
| regionCode | 地区编码 |
| dti | 债务收入比 |
| delinquency_2years | 借款人过去2年信用档案中逾期30天以上的违约事件数 |
| ficoRangeLow | 借款人在贷款发放时的fico所属的下限范围 |
| ficoRangeHigh | 借款人在贷款发放时的fico所属的上限范围 |
| openAcc | 借款人信用档案中未结信用额度的数量 |
| pubRec | 贬损公共记录的数量 |
| pubRecBankruptcies | 公开记录清除的数量 |
| revolBal | 信贷周转余额合计 |
| revolUtil | 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额 |
| totalAcc | 借款人信用档案中当前的信用额度总数 |
| initialListStatus | 贷款的初始列表状态 |
| applicationType | 表明贷款是个人申请还是与两个共同借款人的联合申请 |
| earliesCreditLine | 借款人最早报告的信用额度开立的月份 |
| title | 借款人提供的贷款名称 |
| policyCode | 公开可用的策略_代码=1,新产品不公开可用的策略_代码=2 |
| n系列匿名特征 | 匿名特征n0-n14,为一些贷款人行为计数特征的处理 |
评价标准
提交结果为每个测试样本是 1 的概率,也就是 y=1y=1y=1 的概率。评价方法为 AUC 评估模型效果(越大越好)。
AUC(Area Under Curve)的定义为 ROC曲线 下与坐标轴围成的面积。
提交格式
提交的格式如下所示:
id,isDefault
800000,0.5
800001,0.5
800002,0.5
800003,0.5
主要流程

分类算法常见的评估指标
- 若一个实例是正类,并且被预测为正类,即为真正类 TP (True Positive )
- 若一个实例是正类,但是被预测为负类,即为假负类 FN (False Negative )
- 若一个实例是负类,但是被预测为正类,即为假正类 FP (False Positive )
- 若一个实例是负类,并且被预测为负类,即为真负类 TN (True Negative )
混淆矩阵(Confuse Matrix)
混淆矩阵的对角线表示分类正确的样本的数量,对角线以外的元素表示被误分的样本的数量。
[TPFNFPTN] \begin{bmatrix} TP & FN \\ FP & TN \end{bmatrix} [TPFPFNTN]
准确率(Accuracy)
准确率是常用的一个评价指标,但是不适合样本不均衡的情况(比如10000 个样本中,9999 个为负类,1 个为正类。此时全将样本划分为负类则该算法的准确率可高达 99.9% 以上,但是这样的分类算法是没有意义的)。
Accuracy=TP+TNTP+TN+FP+FN=分类正确的样本数样本总数 Accuracy = \frac{TP+TN}{TP+TN+FP+FN} = \frac{分类正确的样本数}{样本总数} Accuracy=TP+TN+FP+FNTP+TN=

本文详细介绍了一个基于120万条贷款记录的信贷风控模型评估过程,涵盖了数据预处理、模型训练与测试集划分、特征脱敏及AUC、KS等评估指标的计算与解释。
最低0.47元/天 解锁文章
710

被折叠的 条评论
为什么被折叠?



