智能风控建模全流程--看这篇就够了

原创

已于 2022-06-26 23:49:39 修改 · 4k 阅读

48 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #python #智能风控 #金融风控

于 2022-06-21 07:45:38 首次发布

本文详细介绍了信贷风控领域的建模过程，特别是申请评分卡的构建，包括特征选择、数据预处理和模型训练。讨论了逾期定义、表现期的确定，以及LightGBM和逻辑回归模型在信贷违约预测中的应用。通过实例展示了如何使用Python的toad库进行特征工程，如WOE编码，以增强逻辑回归模型的非线性能力。

首先推荐博主新书，各种算法原理全涵盖，和包括金融风控的六大经典建模场景全实现:
北大出版社，人工智能原理与实践人工智能和数据科学从入门到精通详解机器学习深度学习算法原理

其他地方看到这篇总结(算法进阶 Author 泳鱼)，写的比较全面；因此，这里把一些重要和容易混淆地方加修改补充，以飨读者。

1. 信贷风控简介

信贷风控是数据挖掘算法最成功的应用之一，这在于金融信贷行业的数据量很充足，需求场景清晰及丰富。

信贷风控简单来说就是判断一个人借了钱后面（如下个月的还款日）会不会按期还钱。更专业来说，信贷风控是还款能力及还款意愿的综合考量，根据这预先的判断为信任依据进行放贷，以此大大提高了金融业务效率。
在这里插入图片描述

金融是极其注意防范风险的领域，其特殊性在于非常侧重模型的解释性及稳定性。业界通常的做法是基于挖掘多维度的特征建立一套可解释及效果稳定的规则及风控模型对每笔订单/用户/行为做出判断决策。

其中，对于（贷前）申请前的风控模型，也称为申请评分卡–A卡。A卡是风控的关键模型，业界共识是申请评分卡可以覆盖80%的信用风险。此外还有贷中行为评分卡B卡、催收评分卡C卡，以及反欺诈模型等等。

A卡（Application score card）。目的在于预测申请时（申请信用卡、申请贷款）对申请人进行量化评估。B卡（Behavior score card）。目的在于预测使用时点（获得贷款、信用卡的使用期间）未来一定时间内逾期的概率。C卡（Collection score card）。目的在于预测已经逾期并进入催收阶段后未来一定时间内还款的概率。
在这里插入图片描述

一个好的特征，对于模型和规则都是至关重要的。像申请评分卡–A卡，主要可以归到以下3方面特征：

1、信贷历史类：信贷交易次数及额度、收入负债比、查询征信次数、信贷历史长度、新开信贷账户数、额度使用率、逾期次数及额度、信贷产品类型、被追偿信息。（信贷交易类的特征重要程度往往是最高的，少了这部分历史还款能力及意愿的信息，风控模型通常直接就废了。）

2、基本资料及交易记录类：年龄、婚姻状况、学历、工作类型及年薪、工资收入、存款AUM、资产情况、公积金及缴税、非信贷交易流水等记录（这类主要是从还款能力上面综合考量的。还可以结合多方核验资料的真伪以及共用像手机号、身份证号等团伙欺诈信息，用来鉴别欺诈风险。需要注意的，像性别、肤色、地域、种族、宗教信仰等类型特征使用要谨慎，可能模型会有效果，但也会导致算法歧视问题。）

3、公共负面记录类：如破产负债、民事判决、行政处罚、法院强制执行、涉赌涉诈黑名单等（这类特征不一定能拿得到数据，且通常缺失度比较高，对模型贡献一般，更多的是从还款意愿/欺诈维度的考虑）

下面实战部分我们以经典的申请评分卡为例，使用的中原银行个人贷款违约预测比赛的数据集，使用信用评分python库–toad、树模型Lightgbm及逻辑回归LR做申请评分模型。

2. 模型数据和标签的定义

申请评分模型定义主要是通过一系列的数据分析确定建模的样本及标签。

首先，几个常见的金融风控的术语的说明如下：

逾期期数(M) ：指实际还款日与应还款日之间的逾期天数，并按区间划分后的逾期状态。M取自Month on Book的第一个单词。（注：不同机构所定义的区间划分可能存在差异） M0：当前未逾期（或用C表示，取自Current） M1：逾期1-30日 M2：逾期31-60日 M3：逾期61-90日 M4：逾期91-120日 M5：逾期121-150日 M6：逾期151-180日 M7+：逾期180日以上

观察点：样本层面或同一批次客户刚开始贷款的时间窗口，是用于构建样本集的时间点（如2010年10月申请贷款的用户），不同环节定义不同，比较抽象，这里举例说明：如果是申请模型，观察点定义为用户申贷时间，取19年1-12月所有的申贷订单作为构建样本集；如果是贷中行为模型，观察点定义为某个具体日期，如取19年6月15日在贷、没有发生逾期的申贷订单构建样本集。

观察期：特征层面的时间窗口。构造特征的相对时间窗口，例如用户申请贷款订前12个月内（2009年10月截至到2010年10月申请贷款前的数据都可以用，可以有用户平均消费金额、次数、贷款次数等数据特征）。可以看出，很多特征需要用到过去一段时间的统计指标，因此是一段较长时间。设定观察期是为了每个样本的特征对齐，长度一般根据数据决定。一个需要注意的点是，只能用此次申请前的特征数据，不然就会数据泄露（时间穿越，用未来预测过去的现象）。

表现期：标签层面的时间窗口，需要一段时间才能获得标签，因为借贷不是一场球赛能马上知道结果。定义好坏标签Y的时间窗口，信贷风险具有天然的滞后性，因为用户借款后一个月（第一期）才开始还钱，有得可能还了好几期才发生逾期。

在这里插入图片描述
对于现成的比赛数据，数据特征的时间跨度（观察期）、数据样本、标签定义都是已经提前分析确定下来的。因此我通常不用考虑特征和标签构建需要的繁琐步骤。但对于实际的业务来说，数据样本及模型定义其实也是申请评分卡的关键之处。实际场景里面，数据科学家一般不会有现成的数据及标签（客户好坏定义，当然公司的业务员可以提供分析结果给建模人员），模型的具体搭建和训练反而变为相对简单的事情。