1 背景
去年九月份参加了天池举办的零基础入门金融风控-贷款违约预测比赛,赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的信息预测其是否有违约的可能,以此判断是否通过此项贷款,是一个典型的分类问题。
2 数据
赛题数据来源于某信贷平台的贷款记录,总数据量为120W,训练集,测试集A,测试集B数据量各位80W,20W,20W。原数据中包含47列变量信息,主要包括:贷款信息(金额,利率,贷款等级等),贷款人信息(就业信息,收入信息,债务比,FICO(一种信用评分),贷款记录等),贷款人行为计数特征信息(匿名特征)。查询完整的字段表可以访问赛题官网"赛题官网",或点击阅读原文查看我们Blog上的文章。
| Field | Description |
|---|---|
| id | 为贷款清单分配的唯一信用证标识 |
| loanAmnt | 贷款金额 |
| term | 贷款期限(year) |
| interestRate | 贷款利率 |
| installment | 分期付款金额 |
| grade | 贷款等级 |
| subGrade | 贷款等级之子级 |
| employmentTitle | 就业职称 |
| employmentLength | 就业年限(年) |
| homeOwnership | 借款人在登记时提供的房屋所有权状况 |
| annualIncome | 年收入 |
| verificationStatus | 验证状态 |
| issueDate | 贷款发放的月份 |
| purpose | 借款人在贷款申请时的贷款用途类别 |
| postCode | 借款人在贷款申请中提供的邮政编码的前3位数字< |

本文回顾了一次天池金融风控比赛中使用CatBoost、XGBoost、LightGBM和MLP模型的经验。通过EDA、特征工程、模型训练和融合,提升了贷款违约预测的AUC。重点介绍了CatBoost对离散特征的处理和特征重要性的分析,揭示了职称、贷款期数等因素的重要性。
最低0.47元/天 解锁文章
1980

被折叠的 条评论
为什么被折叠?



