
金融评分卡
文章平均质量分 80
金科应用研院
关注公众号「金科应用研院」回复“csdn”可获得量化风控学习资料包
展开
-
基于Toad的评分卡模型全流程详解(内含代码)
至此,我们就用toad快速完成了一个评分卡模型的全流程,可以说是非常方便了,没有使用太多第三方库,除了基本的numpy,pandas就只用到了toad和一点点sklearn,这也可以看出toad确实将评分卡的全流程都进行了完整的封装,足以满足大部分工作的需求。toad是针对风险评分卡的建模而开发的工具包,其功能全面,性能强大,从数据探索EDA、特征筛选、特征分箱、WOE变换,到建模、模型评估、转换分数,对评分卡模型的各个步骤都做了完整的封装,极大的简化了建模的复杂程度,深受从业人员的喜爱。原创 2022-10-12 17:18:38 · 4844 阅读 · 3 评论 -
基于逻辑回归算法模型搭建思路
在真实工作场景中,有多种算法依据借贷数据集建立模型,主要使用的算法有逻辑回归、神经网络、决策树、贝叶斯信念网、GBDT算法等,本系列文章旨在为刚入门和对模型感兴趣的同学介绍传统风控模型算法之一——逻辑回归。前方高能!准备发车!逻辑回归算法逻辑回归(LogisticRegression)又称为逻辑回归分析,经常被用于分类,是常用的预测算法之一。通过学习历史数据的特性预测新数据的表现结果。例如,可以将放贷概率设定为因变量,将用户的自身属性以及行为特征属性,例如家庭人员数量、婚姻状况、年龄、同一页面停留时原创 2021-10-11 10:01:38 · 1770 阅读 · 0 评论 -
风控算法知识——WOE值的深度理解与应用
导语:WOE值的深度理解与应用看这一篇就够啦!!!关注“金科应用研院”,回复“礼包”领取风控资料合集WOE是什么?WOE,全称是“Weight of Evidence”,翻译过来就是证据权重,是对于字符型变量的某个值或者是连续变量的某个分段下的好坏客户的比例的对数。实际的应用会将原始变量对应的数据替换为应用WOE公式后的数据,也称作WOE编码或者WOE化。WOE编码需要首先将这个变量分组处也就是分箱。一般选择使用均匀分箱,离散型数据分箱个数就是该数据的数据类别个数,连续型数据一般会使用6组,尽可原创 2021-06-10 10:24:59 · 8921 阅读 · 0 评论 -
想要系统稳定?最好用也最容易理解的指标是.....
在金融行业里,大家对于系统稳定运行比精准运行,更迫切的需求。这也是为什么位于国内四大行之首的工商银行,后台业务系统还是多年没升级。原因之一是考虑到系统需要稳定运行。在风险管理上,对于稳定性的监控也十分重要,在这之上才会考虑风险的精准识别,以及差异化客群风险定价。衡量稳定度的量化指标有很多,其中最好用也最容易理解的是PSI指标。01、PSI指标是什么?PSI是Population Stability Index的简称,最早运用于评估评分模型的稳定性。对于大多数金融风控从业者,对于PSI指标的认识还是原创 2021-03-25 14:12:43 · 526 阅读 · 0 评论 -
原来这样做模型分数,稳定性与灵活性可以双保障!
我们在实际制作信贷风控评分卡模型的时候,往往会使用子模型叠加的方式来操作,这有两个好处:1.增加模型稳定型。当一个数据源数据损坏的时候,我们可以简单的拿掉这个数据源;2.及时使用新数据。当一个新数据源上线的时候,可以简单的增加一个新的子模型;本文我们来讨论一种灵活增加减少子模型的方法。在子模型基础之上做融合模型的时候一般会使用线性模型来做:比方说我们有三个子模型,那融合模型就是:如果这个时候,子模型3的数据坏掉了,我们的总模型就会变成这样的简单处理方式可以保证融合模型仍然具有剩下两个子模原创 2021-03-16 14:12:56 · 341 阅读 · 0 评论 -
量化风控学习:原来评分卡模型的概率是这么校准的!
在建立评分卡模型的时候,往往建模样本的好坏比和实际情况是不一致的,这是因为:产品本身坏样本较少,为了提高评分模型的敏感程度,会对坏样本进行过抽样或者好样本进行欠抽样;如果是乙方公司,好坏样本的来源可能不同,或者甲方爸爸并没有全量反馈样本表现,那么自然样本中的好坏比无法反映真实的情况。然而,用一个好坏比失真的样本建立好评分卡模型后,如果想要计算每个分数段的坏样本率,得出来的结果是会大于真实情况的。原因很简单,逻辑回归中的截距是约等于好坏比的对数的(因为评分卡模型预测的是该样本为坏样本的概率,因此使用原创 2020-09-16 11:35:38 · 1179 阅读 · 0 评论 -
专栏:谈谈我对当下大数据整顿的理解与风控建议
FAL金科应用研究院专栏:谈谈我对当下大数据整顿的理解与风控建议最近大数据行业爬虫业务监管调查风波刚稍有平息,又有P2P行业疑是被传“全军覆没”,国家年前的整治力度可不谓不大。有一些学员私下来问:数据源都凉凉了,还怎么做风控?我相信这也是所有信贷风控行业从业者共同担心的问题。对于从事金融信贷的机构,数据就好比这台机器永动的“石油”,在现在”石油“限采之余,我们应该怎么应对呢?罪恶之源是利益至...原创 2019-11-06 15:01:29 · 550 阅读 · 0 评论 -
风控贷中环节应该监控哪些风险指标
对于个人信贷的整个信用周期,我们可以将其分为三个大的阶段:贷前、贷中、贷后。贷前对应于Acquisition阶段,贷中是指对于已经成为我们用户的老客经营Portfolio阶段(由于不同公司的成熟度,体量,风险偏好不同,对于老客以及可经营性人群的定义不一样。例如有些金融机构会定义距首次vintage月已经有三个月的用户为老客,有些可能会更长)。对于已经被贷中列为可进入催收阶段的客群例如逾期超过30...原创 2019-11-01 14:59:13 · 4485 阅读 · 0 评论 -
原创专栏:谈谈我对评分模型的理解
在准备给FAL的读者朋友们讲讲评分模型之前,我其实是不太想写有关评分模型的相关分享。一是因为我开始创业后,自身更多关注企业管理与创新发展,评分模型技术关注度不再像以前那么紧密;还有另一个原因是,标准评分模型开发技术似乎已经快“烂大街”,一天N个卡的开发好像大家已习以为常,在模型技术中仿佛有了一条“鄙视链”:会LR的鄙视AHP,会ML的鄙视LR,会DL的鄙视ML。我们运营小伙伴最近跟我反馈,现在...原创 2019-10-21 17:03:42 · 594 阅读 · 0 评论 -
精细化的风险管理,评分的应用策略之道
作为风控模型从业多年的我,谈不上模型专家,但也算见多识广。写这篇文章的原因是我偶然间了解到一则风控总监及CRO的招聘职责要求。加之,现如今监管趋严的大环境下,精细化的风险管理愈加重要。试想随着信贷业务量的增加,金融机构还会允许通过大量Hard check进行风险识别和授信吗?相信大家心里都清楚:精准量化的风控时代早已到来。就算往日业内共识的“无风控”现金贷公司,据我了解也在精准渠道、量化风险上...原创 2019-10-16 14:47:52 · 1019 阅读 · 0 评论 -
一条案例:如何选择合适的第三方数据源
一条案例:如何选择合适的第三方数据源真实案例阐述不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。如何选择合适的第三方...原创 2019-10-16 14:34:41 · 1024 阅读 · 0 评论 -
【金融申请评分卡】数据准备 - 造衍生变量
评分卡开发在数据整理好之后,我们的重点工作就是创造衍生变量了!造衍生变量是整个开发评分卡模型过程中最重要、最艰辛也最有趣的一个节点。最重要是因为衍生变量的好坏往往会影响评分卡模型的各种测评指标,决定策略的反欺诈能力;最艰辛是因为造衍生变量除了要基于业务变量理解之外还要开发人员大开脑洞组合基础变量,有很多时候花了一天时间造好一两个衍生变量但最后都进不了模型,这个时候就又要重新去开脑洞进行变量的组合...原创 2018-09-26 08:49:16 · 3685 阅读 · 0 评论 -
【金融申请评分卡】目标变量界定
一、目标变量是什么?目标变量就是假定申请客户的好坏,逻辑回归公式里的Y,先来看下逻辑回归公式 y=11+e−zy=11+e−z y=\frac{1}{1+e^{-z}}\qquad z=a1x1+a2x2+⋯+anxn+bz=a1x1+a2x2+⋯+anxn+b z=a_{1}x_{1}+a_{2}x_{2}+\cdots+a_{n}x_{n}+b 其中 y=11+e−zy=11+...原创 2018-09-11 10:24:32 · 2123 阅读 · 0 评论 -
【金融申请评分卡】数据准备 - 缺失值数据清洗
今天我们来聊聊数据准备中的数据清洗。其实数据清洗这四个字对于常常做数据分析建模的同学们一定不陌生,不管在实际工作中有没有真正做清洗,我们都会先把这个口号喊出来(Hahaha),数据清洗这块其实我也一直不太愿意拿出来说,因为这种活实在太结合业务理解了,而且还见仁见智,并不是简简单单的三步------缺失值填补、异常值删除、错误值处理。但是做数据建模呢,也不能跳过这步,那我就从操作手法和操作目的两个...原创 2018-09-18 14:23:54 · 960 阅读 · 0 评论 -
开发申请评分卡的第一步要做什么
在开发信用申请评分卡之前,最基本面的工作就是梳理理解数据。不要自认为知道这些字段的中文意思、来自哪张数据表就可以了,还要尽可能的去了解这些数据是从生产库怎么生成的,也就是说这些可能用到的变量数据还原到业务中是怎样的衍生过程,当然如果你们是直接从生产库里挑选数据提炼到建模表上,那么恭喜你,可以花更多的时间去梳理整理数据了,建好的模型也会更稳定准确。现在很多科技数据公司一味的去强调算法、大维度变量...原创 2018-09-04 14:33:27 · 554 阅读 · 0 评论