- 博客(16)
- 收藏
- 关注
原创 第16篇:风控学习笔记-逾期指标、三方数据测试、客群画像
假如线上运行的策略是有效的,那么通过客群和拒绝客群的某些指标应该是有差异的,若差异比较明显说明该维度的指标对风控的帮助比较大,可进一步进行变量挖掘及后续的分析使用,如果无差异,大概率这些指标对风控帮助不大,可少花点精力进行分析。3.我们所处的时代,面对的客群是在不断变化的,早期积累的先验知识在之前的场景下可能是对的,但是在当下有可能是错的。我觉得如果发现了某些效果好但是业务上很难解释的指标,可以用ABTest的方法对指标进行校验,如果最终结果是好的,是可以方向使用的,毕竟我们最终看的是结果。
2025-03-20 17:15:57
431
原创 第15篇:新旧模型的交换集分析
在通常情况下,模型分只有高于我们预先设置的cut-off值,才会被审批通过,但为了持续验证风控策略的有效性,我们有时会设置0.5%~1%的universe Test 分流组,即此时分流组的客户不会执行模型策略而会被直接审批通过。如何进行合理的拒绝推断?例如,旧模型在线上决策的cut-off值是478,因此对于旧模型的模型分在478以上的客户,我们能从历史数据中获得其贷后逾期表现,表中最后两行就是我们需要预测的部分。在正常情况下,旧模型拒绝且新模型通过样本的坏账率要低于旧模型通过且新模型拒绝样本的坏账率。
2024-08-14 18:39:50
882
原创 第14篇:数据清洗和预处理
注意,在评分卡建模中,缺失值是一种非常重要的特征,往往不需要进行缺失值填补,而应直接作为特征进行变量编码或先分箱后编码,而其他领域的缺失值需要填补才可以满足机器学习模型的输入要求(只有少部分模型不需要处理缺失值可以直接建模,如决策树模型)。最简单的方式可以通过观察原始数据的前几条记录进行手动区分,当然也可以自动区分变量性质,如将数据读取成功后,判断数据类型,将整型或浮点型的数据直接划分为连续变量,而数据类型为字符串的为离散变量,如果为日期类型则分为日期变量。在数据集成时,要考虑集成后数据的完整性问题。
2024-08-10 16:27:44
970
原创 第13篇:不同评分卡模型的好坏样本定义
行为评分卡依然可以沿用在申请评分卡中采用的好坏样本定义,如将M3逾期及M3+逾期作为违约的坏样本,而在表现期内没有发生逾期的样本作为好样本,出现M1逾期或M2逾期的样本定义为不确定样本或不到展现期样本,不参与建模。表现期部分:剔除已发生逾期到不到M3逾期的样本,该样本为不到表现期的样本,另外,再观察期时就出现M1逾期或M2逾期的样本就不需要剔除,这是一个非常好的特征,因为样本如果没有采取及时的催收措施,则会很容易转变为更严重的逾期状态而出现违约。坏样本,即出现M2逾期或M2+逾期的样本;
2024-07-16 17:15:16
1080
1
原创 第十二篇:微业贷产品要素
⑧河南省:郑州、开封、洛阳、新乡、许昌、南阳、周口、安阳、信阳、驻马店、商丘。近半年历史滞纳金次数。⑪安徽省:合肥、芜湖、安庆、滁州、阜阳、宿州、六安、亳州。⑲湖北省:武汉、十堰、宜昌、襄樊、荆门、孝感、荆州、黄冈。⑫江西省:赣州、南昌、九江、上饶、宜春、吉安、抚州。煤炭、造纸、金融、化工、国际组织、房地产、金融服务。⑩河北省:唐山、石家庄、保定、廊坊、沧州、邯郸。⑤湖南省:长沙、株洲、衡阳、岳阳、常德、益阳。⑮四川省:成都、泸州、德阳、绵阳、南充、宜宾。⑰山东省:济南、烟台、临沂、潍坊、青岛。
2024-06-02 16:06:40
339
原创 第十一篇:信贷风控中的金额逾期率(日均余额口径)
分子是逾期贷款日均余额,指的是在一顶时期内(通常是一个月或一年)所有逾期贷款的平均每日余额的总和。逾期贷款日均余额通常指的是截止到当天总共的逾期余额,而不是当天新发生的逾期余额。日均余额逾期率的计算公式是:逾期贷款日均余额/(贷款日均余额/days)*100%-分母:分母是贷款日均余额,指的是在同一时期内所有贷款的平均每日余额的总和。:将周期内所有贷款的每日余额相加,然后除以周期内的天数,得到日均贷款余额。:将总逾期贷款余额除以周期内的天数,得到日均逾期贷款余额。计算日均逾期贷款余额。
2024-06-02 15:26:28
840
原创 第十篇:什么是有监督模型训练?什么是无监督模型训练?
有监督学习使用标记过的数据,即每个样本都有对应的输出标签,而无监督学习只使用没有标签的数据。有监督学习通常用于解决分类和回归问题,而无监督学习则更多应用于数据的聚类和模式识别。如果想要预测目标变量的值就选择监督学习算法,如果不想预测目标变量的值,则使用聚类算法。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。它的目标是发现数据的内在结构,典型的无监督学习方法包括聚类和密度估计。
2024-05-09 16:30:57
441
原创 第八篇:花呗的是什么样的额度框架?
固定额度:花呗用户基础额度,开通绑定,无需主动领取,收银台透出,对外透传的额度。 通用额度:主动领取,有效期为1个月,不限场景使用。 境外临额:主动领取,有效期一般为1个月,在境外可领取和境外消费的临额,支持用户出境后/发生首笔境外消费后自动领取。 淘系专项额度:双十一互动提前领取,双十一当天生效,有效期24小时,仅支持双十一当天淘宝、天猫、飞猪付款时使用。 场景临额:指定商户专享临时额度,有效期一般为10分钟,在哪个商户下领取即在哪儿消费。客户支付中提额,缺多少领多少。 余额宝质押额度:部分开放
2024-05-05 17:01:22
526
原创 第七篇:多头借贷的数据以及其为什么少用于模型
可以分为近7天、近15天,近1个月、近3个月、近6个月、近12个月。除了绝对值的时间统计多头数据,还有包括申请间隔天数、申请最大间隔天数、申请最小间隔天数、申请记录月份、申请集中月份、平均每月申请次数、最大月申请次数、最小月申请次数、连续申请的持续天数、连续申请的次数等。非银累多头借贷还可以进一步根据机构类型划分为:p2p申请次数、小贷申请次数、消费类分期次数、代偿类申请次数、担保机构申请次数、消金公司申请次数等。如果模型中有多头借贷数据,可能是为了模型指标效果,或者忽略了现有策略中的多头借贷数据。
2024-05-05 16:24:11
459
原创 第六篇:信贷风控模型上线后评估思路
最重要的是,WOE没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的WOE值很大,但是该分段的个体数占总体数量中的很小的比例,这WOE就不具备整体的代表性,因为其对整体的贡献太小,IV值也会很小。同时,KS的后期观测也相当重要,在后续监控中,KS若出现持续下降,有可能是市场发生了变化,客群发生变化,或者模型本身不够稳定,所以训练模型时训练集和验证集的对比也相当重要,两者KS差距较大,说明模型过拟合,或泛化能力不强。关于KS和IV值的关系,当IV等于0.5的时候,KS接近30%;
2023-10-05 19:17:50
384
原创 第五篇:风控模型监控预警
智能模型由于特征更多、结构更复杂,因此需要持续的更新迭代,通常一个模型的生命周期为3-6个月,因而监控预警在智能模型中显得尤为重要。
2022-08-26 23:28:16
1647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人