1 前言
前一阵子总结了下自己参加的信贷违约风险预测比赛的数据处理和建模的流程,发现自己对业务上的特征工程认识尚浅,凑巧在Kaggle上曾经也有一个金融风控领域——房贷违约风控的比赛,里面有许多大神分享了他们的特征工程方法,细看下来有不少值得参考和借鉴的地方。
2 赛题和数据简介
这个比赛也是经典的监督学习中的二分类问题,需要我们根据用户的申请信息,征信信息(Bureau)以及用户在该机构的信用历史等信息,预测申请人贷款违约的概率。由于赛题是做贷前预测,所以需要找的特征主要是挖掘客户是否存在欺诈,对于非欺诈用户,他们是否有能力还款、

数据表关系图
赛题的数据分布在几张表里,需要我们做适当的表连接操作:
-
申请表:贷款申请信息,主表,一行代表一个贷款申请id。
-
征信(Bureau)余额表: Bureau信用记录,每行是一个申请用户的月度数据,一个id最多有近96个月的记录
-
申请历史表: 同一用户的历史贷款申请信息,额度,期限,利率,是否审批通过等
-
还款记录表: 同一用户的历史还款行为记录。
-
信用卡余额记录表: 持有信用卡的用户的信用卡消费行为记录数据。
3 特征工程
特征工程的主要思路是尽可能多地构造大量特征,再利用特征筛选指标或是模型减少特征数量。

本文总结了金融风控特征工程的实践经验,包括近期特征、统计特征、时序特征的构造,以及特征筛选的方法,如过滤法、包装法和嵌入法。通过实例展示了如何从时间戳转换、统计计算、时序分析等多个角度构建特征,并探讨了特征筛选对模型性能的影响。
最低0.47元/天 解锁文章
1515

被折叠的 条评论
为什么被折叠?



