3. 评分卡模型开发步骤
3.1.数据挖掘目标
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘目标是从数据中发现隐含的、有意义的知识,通过预测未来趋势及行为,做出前摄的、基于知识的决策。
本次项目的数据挖掘目标是构建申请评分模型,通过计算客户的申请阶段的风险评分,预测信贷申请客户未来一段时间内的违约概率,切实提高**银行零售事业部风险计量水平和风险管理能力,优化信贷资产,降低不良率,提升零售金融事业部的服务质量。
3.2. 指标设计
**银行个贷产品的申请评分卡建模的模型指标主要来源与**银行零售事业部个贷系统的业务数据和第三方传递的征信系统数据,同时包含在后续模型优化中添加的征信衍生指标。
总体要素 |
细化要素 |
指标个数 |
指标举例 |
客户申请信息 |
基本信息 |
15 |
年龄、性别、婚姻状况、学历、本外地户籍标识…… |
职业信息 |
5 |
公司性质、行业、职位、工作年限…… |
|
资产及收入信息 |
20 |
工资等级、月申明收入、核实收入、私家车与否、缴纳社保/公积金、银行存款额…… |
|
负债信息 |
20 |
资产负债比、核实负债、每月租房/按揭贷款金额、抵押贷款总额、无抵押贷款总额、无抵押贷款每月供款、抵押贷款每月供款…… |
|
产品特有信息 |
17 |
期限、新客户/续贷、申请产品类型、发薪方式、房龄、物业面积、物业使用类型、私企类型、经营年限、员工人数、经营场所、收入总计…… |
|
人行征信信息 |
信贷产品组合 |
48 |
未销户账户数、授信机构数、单家行最高授信金额、未结清非抵质押贷款笔数、抵/质押担保笔数占比、 |
信用历史长度 |
6 |
贷记卡信用长度、准贷记卡信用长度、(除房贷)贷款信用长度、总体信用长度…… |
|
未偿债务/负债水平 |
33 |
未销户贷记卡使用额度占比、未销户贷记卡最近6个月平均使用额度、将来2个月贷款到期金额数 |
|
历史负面表现 |
56 |
呆账余额、呆账笔数、6个月最大逾期次数、6个月最大逾期期数、客户上一次发生逾期的时间 |
|
新信贷申请 |
16 |
近2个月查询记录次数、近6个月查询记录次数、信贷产品数与审批查询次数比率 |
|
其他 |
11 |
学历、婚姻状况、住房公积金缴纳情况、养老保险缴纳情况、联系方式与本地信息是否匹配…… |
|
综合衍生指标(对以上指标进行二次加工) |
|
29 |
借贷余额与申明收入之比、借贷余额与核实收入之比、未结清(非)抵质押贷款占比(余额/金额)、申请贷款金额与核实收入之比…… |
总计 |
268 |
|
3.3. 指标预处理
数据预处理过程主要包括缺失值填充、异常值处理,最