上周日我报名听了萧老师主讲的公开课"风控模型开发之特征筛选",今天想和大家分享一下课程的第一部分内容:特征空间。
目录
常用数据源介绍
特征衍生常见方法
特征回溯
特征筛选一般流程
如果各位感兴趣的话评论区与我留言互动,我会根据留言在下篇分享课程第二部分内容:风险模型—特征筛选的方式。
每一条样本被称作是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间(feature space)。
常用数据源介绍
风控可分为贷前、贷中、贷后三个不同的阶段,在不同阶段建模所用到的数据源也是不同的。比如:
贷前:
比如做贷前评估卡,通常会用到反映客户信用水平的数据(征信、多头借贷、其他平台的逾期信息等);
贷中:
比如贷中的额度管控,提额或是冻结,通常会加工一些客户的用信历史、支用还款行为等;
贷后:
比如贷后催收,通常会使用到客户得逾期、催收信息等。
从以上这些数据源的获取渠道分类来看,主要有3个渠道:
用户自己提供的(身份证、年龄、学历、收入、所在公司、行业、户籍、联系方式、婚姻状况、联系人信息等等);
经客户授权后获取的客户信息(APP行为数据、设备类信息、贷中行为数据等);
从外部第三方接入的数据(人行征信、公积金、多头、消费、支付等)。
特征衍生常见方法
特征衍生是整个建模过程关于特征处理(特征工程)中的一个环节,一些变量或者变量之间的组合能给模型引入非线性的统计信息,给模型带来一定程度的提升。
变量衍生有各种各样的方法,比的就是谁的脑洞更大。可以简单粗暴的根据业务理解进行变量的组合。一般暴力衍生的基本逻辑:基于时间窗口事件类型聚合统计指标这几个维度的笛卡尔积(两个集合X和Y)。关注“金科应用研院”,回复优快云,领取风控大礼包。
时间滑窗数量统计类特征:
时间窗口求和统计特征
时间窗口均值统计特征
时间窗口最值统计特征
时间窗占比统计类特征
时间窗趋势统计类特征
时间窗稳定性衍生特征
示例:
比如通话记录类的特征衍生:时间+事件(拨出/接入/时长/次数)+统计(count/sum/mean/占比)
(衍生特征图例)
特征回溯
在风控模型开发的标准化流程当中,特征的回溯及筛选是重要的一个环节。风控模型使用的特征常常包含征信、消费支付、多头借贷、设备类等特征。
数据决定了模型的上限,而模型只是通近这个上限。下图表示为模型开发阶段和模型上线调用阶段的数据的使用逻辑。
注意避免数据穿越:回溯特征是在样本设计阶段之后的过程,所用这里需要注意的一点是观察点的使用(避免特征的统计时点出现在表现期)。一般使用客户的三要素(姓名、身份证、手机号)+观察点去进行回溯。特征的统计时点一定要在样本的观察点之前,否则就会出现数据穿越现象(借用客户未来的信息预测未来)。
特征筛选一般流程