第一章 风控建模三要素
文章目录
前言
自从进入智能手机时代,伴随人们生活质量的提升,消费需求也越来越大。消费不再局限于线下,取而代之的线上消费慢慢成为主流…
交易转移到线上,风险就不可避免。最典型的就是信用卡消费,每个人会根据自己的“表现”获得一个额度,人们只能在这个额度下进行消费,借款人需在截止日期之前把钱还上,否则将面临失信问题。这在建模(系列文章中的风控建模均只局限于金融领域)中就是常说的“坏客户”。
那我们为什么要进行风控建模?如果出现坏客户,之后不借给他不就可以了。但请想象一下,现在出现一群没有还款能力的人,他们借了你家银行一大笔钱,最后都还不上…所以,风控建模的目的之一就是不借给这些人钱。
本章我会解释风控模型的三大基本要素。
一、数据
从数据体量看,一个有效果的风控模型至少需要用上千级别的数据量,且随特征数量逐步上升。从数据形式看,均是表格型数据。最常用的是csv格式的数据,相比于xlsx格式,csv占用的空间小的多。
建模用到的数据有一个很明显的特点,就是坏样本会远少于好样本。挑选的时候,需要尽可能保证坏样本总量大于500。
样本示例

其中,event_name:数据所在客群
month:数据所在月份
all_cnt:数据量
catch_cnt:y标签不为空的有效数据量
catch_rate:有效数据量占比
bad_cnt:y为1(坏样本)的数量
bad_rate:y为1(坏样本)的占比,也称坏账率
这是其中一种查看数据基本信息的方式。
观察该数据不难发现,每个月的样本量都超过10000,坏账量都超过1000,故他们都可以单独作为样本。另外,如果相邻月份具有相似坏账率,可以考虑合并。

本文介绍了风控建模的三个核心要素:大量数据样本的选择与处理、特征分类(基本特征和待入模特征)、以及使用XGBClassifier的模型构建实例。强调数据在模型中的重要性和后续的数据清洗、分析工作。
最低0.47元/天 解锁文章
4109

被折叠的 条评论
为什么被折叠?



