评分卡模型工作流程

评分卡模型在金融风控中的应用广泛,涉及模型构建、数据预处理、特征构造、特征选择、模型选择和评估等多个步骤。数据预处理包括百分比、日期格式转换和文本处理。特征构造涉及计数、比例等统计指标以及分箱和WOE编码。模型选择有逻辑回归、决策树等,评价标准涵盖区分度、准确度和稳定性。评分卡计算与Logistic回归结合,通过WOE编码得出用户信用得分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

评分卡模型的工作流程主要分为以下几个步骤:

一、模型构建
假设模型训练集的观察点(即客户的申请时间段)为2014-01到2014-03,那么这个模型的观察期(这里我们假定为三年)为2011-01到2014-01,模型的表现期(这里我们假定为一年)为2014-03到2015-03。

对照上面的模型构建的时间来,我们来建立测试集,假定其测试集观察点(即客户的申请时间段)为(2015-04),同理可得观察期,和表现期真实的违约或者逾期与否。这时把模型放在这个测试集上进行测试看看效果如何。这里需要注意训练集和测试集上用户在表现期的表现如何都是基于一个已经发生的时间段上。

二、数据预处理

  1. 数据格式处理
    <1>利率——带%的百分比,需要转化成浮点数
    <2>日期——Nov17, 需要转化为Python的时间
    <3>工作年限——<1 year 转化为0,>10 years 转化成11
    2.文本类数据格式处理
    <1>主题提取(NPL) 缺点:NPL的模型较为复杂,且需要足够多的训练样本
    <2>编码 缺点:信息丢失很高

三、特征构造
1.常用特征衍生
<1>计数:过去1年内申请贷款的总次数
<2>求和:过去1年内的网店消费总额
<3>比例:贷款申请额度的年收入占比
<4>时间差:第一次开户距今时长
<5>波动率:过去3年内每份工作的时间的标准差

2.特征分箱(优势:可将缺失作为独立的一个箱带入模型,将所有变量变换到相似的尺度上)
<1>监督式分箱法
Best-KS 让分箱后组别的分布差异最大化
步骤:1.排序 X=X1,X2,…,Xk
2.计算每一点的KS值
3.选取最大的KS对应的特征值Xm,将X分为Xi<=Xm与Xi>Xm 两部分, 对于每一部分,重复2-3,直至满足终止条件之一
终止条件:1.下一步分箱后,最小的箱的占比低于设定的阈值(常用0.05

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值