天池零基础金融风控比赛小结

最新推荐文章于 2025-08-12 23:34:40 发布

原创

最新推荐文章于 2025-08-12 23:34:40 发布 · 507 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文回顾了一次天池金融风控比赛中使用CatBoost、XGBoost、LightGBM和MLP模型的经验。通过EDA、特征工程、模型训练和融合，提升了贷款违约预测的AUC。重点介绍了CatBoost对离散特征的处理和特征重要性的分析，揭示了职称、贷款期数等因素的重要性。

1 背景

去年九月份参加了天池举办的零基础入门金融风控-贷款违约预测比赛，赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的信息预测其是否有违约的可能，以此判断是否通过此项贷款，是一个典型的分类问题。

2 数据

赛题数据来源于某信贷平台的贷款记录，总数据量为120W，训练集，测试集A，测试集B数据量各位80W，20W，20W。原数据中包含47列变量信息，主要包括：贷款信息(金额，利率，贷款等级等)，贷款人信息(就业信息，收入信息，债务比，FICO(一种信用评分)，贷款记录等)，贷款人行为计数特征信息（匿名特征）。查询完整的字段表可以访问赛题官网"赛题官网"，或点击阅读原文查看我们Blog上的文章。

Field	Description
id	为贷款清单分配的唯一信用证标识
loanAmnt	贷款金额
term	贷款期限（year）
interestRate	贷款利率
installment	分期付款金额
grade	贷款等级
subGrade	贷款等级之子级
employmentTitle	就业职称
employmentLength	就业年限（年）
homeOwnership	借款人在登记时提供的房屋所有权状况
annualIncome	年收入
verificationStatus	验证状态
issueDate	贷款发放的月份
purpose	借款人在贷款申请时的贷款用途类别
postCode	借款人在贷款申请中提供的邮政编码的前3位数字<

最低0.47元/天解锁文章