0 前言
以下将结合个人专业理解、3年银行小微信贷风控分析(B端)工作经验和近期求职情况,就“信贷产品设计和数据分析”课题作相关经验/考察点的分享总结,见识有限仅供参考。
(全文字数总计1.3W+,归纳编辑不易,有问题欢迎指正,喜欢欢迎点赞收藏)
PS:面经分享
简历构成:
个人信息基本信息+教育背景+专业技能+工作内容+项目经验
自我介绍:
个人基本信息——入职公司和基本介绍——在职部门和角色——主要工作内容——项目经验和突出成果——个人诉求和意向说明——总结和重点突出个人优势和岗位匹配度。
【注意】建议准备2/3/5/8分钟不同版本自我介绍,一般不宜超过5分钟。
1 信贷基础
1.1 金融机构
中国的金融业实行的是分业经营分业监管,监管层分别是中国金融稳定发展委员会、中国人民银行、中国证券监督委员会(简称“证监会”)和中国银行保险监督委员会(简称“银保监”),俗称“一委一行两会”,所以人行和银保监是监管机构。
银行是经济体系中最为重要的金融机构之一,以中央银行(即中国人民银行)为核心的银行体系如下:
1. 银行金融机构:
- 政策性银行:国家开发银行、中国进出口银行 、中国农业发展银行
- 国有商业银行(6大行):中国银行、农业银行、工商银行、建设银行、交通银行、邮储银行
- 股份制银行:招商、兴业、浦发、中信、广发、平安、民生、光大银行,等
- 地方商业银行:重庆银行、上海银行、长沙银行,等
- 农村银行体系:农村信用社、村镇银行、农村商业银行、农村资金互助社,等
- 外资银行
【附】一般银行网点悬挂的证书有:营业执照、金融许可证、外币经营许可证
2. 非银行金融机构:
非银行金融机构包含所有下发金融牌照的法人企业,与银行的主要区别在于不能吸收公众存款,主要表现形式如下:
保险、证券、基金、小额贷款公司、汽车金融公司、消费金融公司、信托公司、融资租赁公司,等
1.2 银行业务
1.3 银行系统
银行常见系统及其功能:
- 渠道系统:开户、身份核实、申请、签约、还款,等;
- 信贷系统:准入策略、流程配置、客户管理、业务管理(贷前-贷中-贷后)、统计查询、押品管理等、信贷业务,记录客户信息、授信信息、合同信息、押品信息、担保信息等;
- 网贷系统:网贷业务管理,可作为“信贷系统”的子系统;
- 核心系统:核心客户管理、财务核算;
- 大数据平台:数据落地、数据加工(工商/税务/司法等);
- 征信平台:征信查询,查询方式API或WEB;
- 网银系统:交易结算、业务申请(移动性较差安全性更高);
- 手机银行:交易结算、业务申请;
- 短信服务平台:短信通知;
- 电子签章服务:数据证书签章;
- 影像服务平台:存储电子影像、文档等;
- 企业服务总线(ESB):连接中枢、协调服务(为各系统提供交互服务并提高安全性);
- 云估服务平台:押品询价,抵押物在线评估系统。
1.4 信用贷款
1.4.1 个人信贷
个人贷款(简称“个贷”)又称零售贷款业务。个人贷款是指银行或其他金融机构向符合贷款条件的自然人发放的用于个人消费、生产经营等用途的本、外币贷款。个人贷款种类如下:
- 个人住房贷款
- 个人公积金贷款
- 个人汽车贷款
- 个人教育助学贷款
- 个人综合消费贷款
- 个人经营贷款
- 个人信用贷款
- 个人存单(国债)质押贷款
1.4.2 小微信贷
小微信贷是指小微企业的信贷业务,企业为了生产经营的需要,向银行或其他金融机构按照规定利率和期限的一种借款方式。
因为小微企业的信贷需求具有 “短、小、频、急”的特点,其小额、短期、分散的特征更类似于零售贷款,他们对资金流动性的要求更高。小微企业客户主要集中在以下几个行业:
- F_批发和零售业
- C_制造业
- E_建筑业
- M_科学研究和技术服务业
- L_租赁和商务服务业
- G_交通运输、仓储和邮政业
- I_信息传输、软件和信息技术服务业
1.5 信贷数据源
信贷数据源如:
个人征信、企业征信、工商、司法、行内、税务、流水、银联、发票、电商交易数据、运营商数据,其他场景类数据等
【说明】征信是信贷风控重要数据源,征信报告解读和应用可参考《信贷风控分析—征信数据源》
(链接:https://blog.youkuaiyun.com/csdnbt/article/details/137276502?spm=1001.2014.3001.5501)
第三方数据的评估标准:
- 定量指标:查得率(体量)、覆盖率(区分度)、准确率、稳定性,等(见下图-数据质量评估)
- 价格成本:逐笔收费、阶梯型收费、独立收费、系统相关收费
- 可迁移性
- 合规性
1.6 信贷风险管理
风险管理全流程策略:
- 贷前包含七大内容:准入策略、授信、定价、系统搭建、策略调优、指标监控、策略部署;
- 贷中覆盖四大场景:贷中预警与监控、贷中调额、存量客户运营、贷中模型体系;
- 贷后涵盖四大内容:贷后策略设计、不良资产处置、贷后指标应用、贷后客户分群;
- 反欺诈包括五大板块:黑产链条介绍、 trigger 体系搭建、欺诈量化指标挖掘、欺诈团伙挖掘、反欺诈策略设计。
2 建模基础
2.1 sklearn建模
在实际应用中,信贷风控模型需要基于大量的数据和复杂的算法模型进行训练和优化,以提高预测的准确性和稳定性,风控模型最常用的如逻辑回归(LR)、XGBOOST ,等。
一般建模步骤:
- 数据准备:
pd.read_excel()/pd.read_csv() /pd.concat([df1,df2]); - 数据清洗(含特征工程):
- 唯一性检查:df.drop_duplicates(inplace=True)
- 缺失值检查:系统原因、前端录入原因、接入征信公司原因——替代、删除、保留法处理
- 异常值检查:删除、替换、盖帽法处理——连续变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值
- zero-rate,等
- 数据洗牌:sklearn.utils.shuffle(df)
- 稳定性验证:PSI、平均值/方差、IV
【IV】子分箱IV(i)=(好客户比-坏客户比)*WOE(i)=(好客户比-坏客户比)*ln(好客户比/坏客户比)
- 数据集划分(随机抽样和分层抽样):sklearn.model_selection.train_test_split(x,y,test_size=0.3, random_state=)
- 模型构建和训练:
- 构建分类模型如:决策树、随机森林、逻辑回归、线性判别、KNN、贝叶斯、支特向量机、神经网络,等(见上节)
- 网格调参(网格搜索 +交叉验证):sklearn.model_selection.GridSearchCv(estimator).fit(x_train_woe ,y_train)
- 模型预测和验证:
- 测试集预测:predict(x) / predict_proba(x)
- 交叉验证(选择稳健模型,避免过拟合):sklearn.model_selection.cross_val_score()
【*k折交叉验证*】:k折交叉验证将所有数据集分成k份,不重复地每次取其中一份做测试集,用其余k-1份做训练集训练模型,之后计算该模型在测试集上的得分,将k次的得分取平均得到最后的得分。
- 模型评估(混淆矩阵、AUC、KS、PSI,等):
- 准确性:sklearn.metrics.accuracy_score(y_true, y_pred) /precision_score() /recall_score() /f1_score() /r2_score() /confusion_matrix(test_y,y_pred)
- 区分度:roc_curve(y_true, y_scores, pos_label=1) / auc(fpr,tpr) /roc_auc_score(test_y,ypred) / KS曲线
【*KS*】KS曲线是好坏客户累计占比的差值,KS值是KS曲线出现的最大值,是鉴别好坏客户的最佳点,KS值越高代表两者距离越大,对应的在该分数下区分度越好。
【*GINI*】洛伦茨曲线是用来评估评分卡鉴别效果的标准图表,横纵轴是累计的好坏客户比例,GINI=A/(A+B),基尼系数越大表示模型鉴别力越高,45度线代表随机模型不具备区别能力。
【*AUC*】ROC曲线是以在所有可能的截断点分数下,计算出来的对评分模型的误授率和1-误拒率的数量所绘制而成的,AUC值为ROC曲线下方的总面积,GINI系数和AUC存在线性关系。
- 稳定性:PSI=SUM((基期占比-本期占比)*LN(基期占比/本期占比))
- 模型结果保存(统计结果和图形):
- 绘图:matplotlib.pyplot.plot() /title() /legend()
- 保存结果:pickle.dump(classifier, save_classifier)
- 载入结果: pickle.load(classifier_f)
- 模型监控
【说明】信贷风控监控和模型评估方法的sql实现可参考《信贷风控策略/模型监控_基于sql优化》
(链接:https://blog.youkuaiyun.com/csdnbt/article/details/126531829?spm=1001.2014.3001.5501)
2.2 sklearn工具包
- sklearn工具包:分类(见下图1-分类模型基本框架)、回归(见下图2-回归模型基本框架)、聚类、降维、模型选择(sklearn.model_selection)、特征处理(sklearn.preprocessing)、交叉验证(sklearn.metrics)等
- 内置标准数据集:print(dir(sklearn.datasets))
综上,风控模型算法的选择需要根据特定的数据集和业务需求具体分析,并根据最终效果来做出决策。一般考虑因素如:模型可解释性、模型准确性与性能、数据规模、特征数量、数据类型,等。
常用建模方法如下:
- 非平衡数据处理—SMOTE采样(过采样):sklearn.impute.SimpleImputer().fit(x) /imblearn.over_sampling.SMOTE().fit_sample(x1, y)
- 特征缩放:sklearn.preprocessing.StandardScaler().fit_transform(X)
- 线性回归 :scipy.stats.linregress(x, y) /sklearn.linear_model.LinearRegression().fit(x, y)
- 其中,statsmodels包侧重于科学研究统计建模, sklearn包侧重于数据挖掘需求建模。
- 逻辑回归 (sigmoid函数将线性函数的结果转换为概率值):sklearn.linear_model.LogisticRegression().fit(X_train, y_train)
- 决策树:建模 sklearn.tree.DecisionTreeClassifier().fit(x, y) --> 生成图pydotplus.graph_from_dot_data(tree.export_graphviz(dtree, out_file=None, feature_names=)).write_png()
- 随机森林(bagging代表,投票选举):
sklearn.ensemble.RandomForestClassifier(n_estimators=).fit(X,y) - AdaBoost自适应提升树(boosting代表,提升弱分类器):sklearn.ensemble.AdaBoostClassifier(n_estimators=).fit(X,y)
- GBDT梯度提升树(boosting方法):sklearn.ensemble.GradientBoostingClassifier(n_estimators= , learning_rate= , max_depth= , random_state= ).fit(X,y)
- xgboost分布式梯度增强树(boosting方法,采用多个决策树模型进行集成学习,并通过梯度提升的方式不断迭代优化模型):xgboost.XGBClassifier(max_depth= ,learning_rate= ,n_estimators= ,objective= ,verbosity= ).fit()
- 优点:预测性能和泛化能力较强,可处理非线性关系的数据和大规模高维数据,并且在处理非平衡数据时也有比较好的效果。
- 缺点:是较难解释和可视化特征的重要性和决策过程,并且需要进行超参数的调整和模型的训练,计算量也会比较大。
- catboost梯度提升树 (boosting方法):catboost.CatBoostClassifier().fit(train_x,y_train,verbose=False)
- 关联规则:编码 mlxtend.preprocessing.TransactionEncoder().fit(df).transform(df) -->关联挖掘(支持度/置信度)mlxtend.frequent_patterns.apriori()/ association_rules()
- 聚类分析:sklearn.cluster.KMean(n_clusters=, random_state=).fit(X) / DBSCAN(eps=, min_samples=).fit(X)
3 方案设计
产品设计方案的组成部分:产品形态、数据风控、业务流程
3.1 一站式解决方案
3.1.1 业务落地
一体化智能信贷解决方案:(见下图1-项目交付流程,下图2-核心工作流)
1. 方案阶段:前期准备(项目启动、业务调研、系统调研)——方案框架设计——数据调研(接口、交互方式、时效、业务含义等)——数据接入(税务、工商、司法、房产、其他政府和供应链数据等)——数据解读——风控方案和流程设计
2. 交付阶段:需求制作和审查——开发测试——系统部署(产品工厂+模型工厂+数据工厂)
3. 运营阶段:优化迭代——运营监测(产品运营周期:准备期——试运行期——调优期——增长期——稳定期)
3.1.2 系统交互
3.2 产品要素
信贷产品形态要素如:
- 贷款对象:小微企业 /个体工商户 /企业法定代表人或股东 /个人…
- 贷款额度:单户最高限额20/100/300万…
- 贷款期限:3/6/9/12/24/36个月…
- 贷款利率:差异化定价,依据客户分层、日均存款、额度、评级、行业等因素确定
- 资金用途:企业流动资金贷款 /个人经营性贷款 /个人消费性贷款
- 支付方式:自主支付 /受托支付 /限额支付 /超额定向支付
- 担保方式:保证 /信用 /抵押 /质押
- 贷款品种:循环额度 /单笔单批
- 还款方式:先息后本 /等额本息 /等额本金 /不定期还款
3.3 业务流程
业务流程:(见下图-信贷核心业务流程)
- 贷款申请:渠道申请(微信/手机银行/网银/H5,等)——税务授权
- 数据准备:获取数据(工商/司法/税务/征信/行内,等)——数据清洗——执行指标——计算模块——计算模型
- 风控审批:身份交叉验证——准入规则校验——反欺诈校验——评级模型结果——要素模型结果(额度、利率、期限、还款方式等)——综合决策
- 签约放款:合同签约——贷款支用审批——放款(核心系统)
- 贷中管理:贷款首检——贷中预警和信号处理——贷中调额(含冻结与解冻)
- 贷后管理:正常还款(提前全额还款/提前部分还款/到期还款)——逾期催收
3.4 风控设计
3.4.1 设计思路
策略搭建思路:
1. 熟悉产品要素和进件流程
2. 明确审批对象,制定主体策略模块
- 如:个人信息验证,准入,欺诈,黑名单,人工,授信,交易风险判断,等
3. 对应主体策略模块,寻找风险解决方法
- 第三方数据源 — 指标(查得率,覆盖率,准确率,稳定性,连续性),价格,可变性
- 增加进件要素获取
- 爬虫获取额外信息
4. 根据确认策略模块,设计审批流程
- 无费用在前,有费用在后
- 强高风险在前,弱风线在后
- 尽可能存留信息
5. 确认审批流程落地方案
- 常用系统:决策引擎,审批系统,征信平台
综上,策略搭建基本思路:准入客群—确认风险点—寻找对应排除方法—合理组合解决方法。
【注意】银行合规文化来自:中国银行保险监督管理委员会、中国人民银行、银行内控合规部门,产品核心是符合“三规”(银监规定、银行规定、法律规定)。
3.4.2 准入策略
准入策略模块根据业务应用需要进行设计,分为排黑类策略(原生黑名单+衍生黑名单)、基本信贷策略(合规授信+前置准入)和产品类策略三类准入指标,排黑类策略与基本信贷策略为基础准入模块,产品类策略为产品客群差异化配置。
准入环节考察风险维度如:产品基本准入、行内合规/授信管理、缓释风险、经营能力/经营稳定性、融资负重/融资饥渴/融资能力、逾期/不良信用风险,等。
准入策略指标举例如下:
(1)排黑类
1. 原生黑名单(行内与第三方黑名单库):申请人/配偶/企业是否命中黑名单、是否通过“失信被执行”/“限制消费被执行”/“刑事、破产、诉讼”校验
2. 衍生黑名单(严重违约与违法违规行为):未结清不良类贷款/相关还款责任数量、近X月税务严重违法违章/重要工商行政处罚次数、申请企业当前是否存在股权冻结/是否通过司法校验
(2)基本信贷类
1. 合规管理:申请人/申请企业/配偶/关联企业是否是本行关联人、是否本产品存量/在途申请客户
2. 授信管理:申请人/申请企业/配偶/关联企业在本行是否存在当前逾期贷款
3. 前置准入:申请人是否是企业法定代表人或股东、持股比例、申请人年龄、是否本地户籍;申请企业经营状态、申请企业完整纳税月份数、纳税等级、是否禁入行业、企业划型,等
(3)产品客群类
产品客群类策略主要设有与逾期相关性较强的风险类指标,从信用风险、财务风险、经营情况等维度考察还款意愿、偿债能力、资金饥渴度、融资能力、经营能力、经营风险等。
1. 信用风险(当前逾期/历史逾期—还款意愿):申请人及申请企业未结清贷款/信用卡/相关还款责任逾期余额、申请企业近X月欠税记录数/贷款累计逾期次数,等;
2. 财务风险 (融资负重/融资需求/融资能力—还款能力):申请人及申请企业未结清贷款/信用卡/相关还款责任笔数/机构数/余额/占比、申请人近X月贷款/信用卡审批查询次数/差值/机构数、申请企业历史最高授信金额、申请人当前连续正常还款月份数,等;
3. 经营风险(经营能力/经营稳定性):申请企业近X月交易总额/增值税纳税销售收入/年均销售收入/经营活动净流入/销售收入环比增长率,申请企业近X月增值税纳税申报销售收入为0月份数,等
3.4.3 反欺诈策略
在信贷领域有两类风险,一类是信用风险,一类是欺诈风险。信用风险主要是对借款人还款能力和还款意愿进行评估,而反欺诈则是对借款人的不正当目的进行判断和预防。
欺诈风险常见的类型:
- 白户风险:内部白户(新注册用户、无申贷历史记录)、外部白户(央行征信、第三方民间征信无覆盖)
- 黑户风险:内部黑户(历史多笔订单出现逾期、在途订单催收失联等)、外部黑户(央行征信、第三方民间征信黑户)——舆情监控
- 内外勾结——数据脱敏
- 身份冒用——信审、人脸识别、活体验证
- 传销风险——关联图谱
- 中介风险
- 伪造风险
- 以贷养贷
反欺诈分为广义反欺诈和狭义反欺诈,广义反欺诈旨在识别“无还款能力”或“无还款意愿”的严重欺诈客户,狭义反欺诈旨在识别“数据造假”、“还款能力有瑕疵”或“还款意愿略有瑕疵”的轻微欺诈客户,通过客户欺诈得分最终映射狭义欺诈等级高/中/低风险档位。
反欺诈监测指标如:
1. 身份欺诈:
- 企业身份欺诈(空壳企业/停工企业/批量新设关联公司):同一注册地址不同申请企业和关联企业数、贷前连续X月新设关联企业数、借款人投资/任职/担任法定代表人的企业吊销数
- 个人身份欺诈:同一设备不同申请人数、作为紧急联系人人次
2. 行为欺诈:
- 异常申请行为:申请人/申请企业及关联企业近X月累计申请本产品的次数、申请企业距离最近一次被拒绝的月份数
- 异常特征表现:未结清贷款是否存在首期逾期、申请人是否存在犯有欺诈类罪前科、近X月经营地址变更次数、近X月骗税次数
3. 数据欺诈:
- 突击性分析:增值税申报应纳税额同比增长率、近X月增值税应纳税额比例
- 异常交易行为:贷款前连续X月新设关联企业数,申请企业近X月上游交易中关联企业交易总额占比
- 变动不可匹配性:一般纳税人开票金额占销售收入比例(发票数据)、对公销售收入流入金额占销售收入比例(流水数据)、近X月增值税零负申报比例(税务数据)
4. 白名单(欺诈排除,反向验证机制):
- 当前未结清正常类贷款金额、是否行内存量客户、当前房贷余额
3.4.4 评级模型
(1)信用评分卡分类
信用评分卡是通过用数据对客户还款能力和还款意愿进行定量评估的系统,目前应用最广泛的主要分为以下四种:
- 申请评分卡(ApplicationCard):通常用于贷前客户的进件审批。在没有历史平台表现的客群中,外部征信数据及用户的资产质量数据通常是影响客户申请评分的主要因素;
- 行为评分卡(BehaviorCard):通常用于贷中客户的升降额度管理,主要目的是预测客户的动态风险。由于客户在平台上已有历史数据,通常客户在该平台的历史表现对行为评分卡的影响最大;
- 催收评分卡(CollectionCard):通常用于贷后管理,主要使用催收记录作为数据进行建模。通过催收评分对用户制定不同的贷后管理策略,从而实现催收人员的合理配置;
- 反欺诈评分卡(Anti-fraudCard):通常用于贷前新客户可能存在的欺诈行为的预测管理,适用于个人和机构融资主体。
其中,前三种就是我们俗称的“ABC”卡,其中最重要的就是申请评分卡,目的是把风险控制在贷前的状态,减少交易对手未能履行约定契约中的义务而造成经济损失的风险,下文围绕申请评分卡A卡建模展开。
(2)评分卡开发流程
评分卡建模完整流程(见下图-评分卡开发流程):
1. 模型定义:目标产品客群——模型选择(评分卡/集成模型)——样本定义(观察期/表现期,好/坏/灰定义)
2. 数据采集:数据获取——指标计算(特征X)——样本构建(好坏灰样本标签Y)
3. 数据预处理:缺失值,异常值,重复值,类别变量,乱码处理,标准化,离散化
4. 特征工程:特征清单——特征降维——特征衍生——特征分箱——特征WOE编码——特征筛选——特征转换
无监督分箱:kmeans,等频分箱,等距分箱
有监督分箱:决策树,卡方,best-ks分箱
5. 模型训练:数据集划分——算法选择(如逻辑回归)——训练集拟合模型——参数调优——模型集成(特征聚类—子模型集群—子模型集成)——评分卡拉伸(尺度变换公式:score=A-B*log(odds))
【尺度变换】由于逻辑回归具有良好的校准度,其输出概率与真实概率之间存在良好的一致性,可以直接把概率分数线性映射为整数分数,因此常用逻辑回归作为分数校准,评分卡分数校准/尺度变换公式:
**score=A-B*log(odds)**
其中:
odds:赔率
A:好坏客户信用分临界点(offset)
B:刻度因子(factor)
t0:坏好客户比
PO:基准分=A-B*n(t0)
PDO:odds翻一倍时改变的分数
6. 模型评估:测试集集评估模型(AUC,AR,KS,PSI)
7. 模型验证:交叉验证/压力测试以评估模型泛化能力及稳定性
8. 模型部署:规则化部署/标准化部署
9. 模型监控:前端监控(模型评级/评分/风险维度/单变量分布稳定性)、后端监控(模型区分力/稳定性/排序性)
10. 模型迭代:重新拟合/重新构建
(3)专家vs量化评级
专家评级模型 vs 量化评级模型:
(4)模型设计框架
智能评级模型评价一定时间内(通常设定为一年)客户违约的可能性或概率,其评级结果可有多层次的表述,包括评分、评级和违约概率。
申请评分卡建模可从以下9个风险维度考察:融资需求、负债水平、违约历史、非银融资、信贷规模、资产积累、经营稳定性、经营能力以及基本特征 。(见下图-评级模型结构设计)
(5)建模常见问题
Q1:可以通过哪些角度筛选变量?
- 缺失率
- 集中度
- 对好坏样本区分能力——IV,AR
- 稳定性——训练/验证/测试样本间的PSI
- 共线性——VIF
- 显著性——p值
- 分箱趋势是否符合业务逻辑
- 逐步回归
Q2:做分箱和WOE转换的目的是什么?
- 处理极端值,可以直接将极端值合并到最大或最小的分箱中
- 使模型更加稳定,变量微小的变化不一定改变评分结果
- 使自变量和目标变量呈正相关的关系,符合逻辑回归的假设
Q3:建模过程中如何保证模型的稳定性?
- 样本量要足够大,还需具有代表性。如果模型专用性,则需要使用近期的样本进行建模,并保证抽取到近期表现稳定的样本
- 由于一般使用有监督的算法,因此定义目标变量非常重要
- 保证特征时间序列上的稳定性、慎重选择区分度过强的特征、特征分箱处理、保证入模特征多样性
- 选择稳定性数据源
- 选择稳定性较好的模型,例如LR、随机森林、xgboost这类泛化能力较好的模型
3.4.5 额度策略
额度策略设计要点:
- 与全行统一客户额度管控联动:客户统一授信额度管理、客户统一信用额度管理;
- 符合授信评审行业规则与经验规则;
- 针对高风险客群的群体限额,模型评分结果、贷款乘数、负债率有机整合;
- 运用构建行业等级运用、精准度至国标第4类的高危行业、高危关联行业;
额度策略方案:(核心因素:收入和负债)
- 初始额度 = 年均收入* 定额系数X * 评级乘数X (评级矩阵配置参数)
- 初始修订额度 = 初始额度 *(1+修订变量序列比例X) 【修订变量如:纳税等级,收入增长率,行业等级,等)
- 单户贷款额度上限 = 年均收入* 配置参数X - sum(产品维度信用负债/全量负债扣减项 + 配偶信用负债余额)
- 客户可用统一授信/信用额度 = 客户统一授信/信用额度上限 - sum(客户维度信用负债/全量负债扣减项)
- 本地特殊客群审批额度调整:白名单客户、政府采购合作客户、存款理财客户增额等
- 最终额度 = min(额度1 ,额度2 ,…)
3.4.6 贷中预警
预警简介:贷中预警模型用于贷款发放后,对贷款客户及企业的信用、财务、经营等情况进行定期跟踪和监控,评估和预测预警对象是否有不还款迹象,并在满足约定条件时提供红/橙/黄预警信号,以及预警信号的管理。(见下图-贷中预警流程)
预警应用:额度管理,贷中风险管理和营销
预警指标类型:当期型、与基期比较型、与上期比较型
模型监测指标:预警率/命中率、误报率、准确率、召回率、精确率,等
贷中预警指标主要监测风险如:
- 综合:贷后评级下降;
- 工商:企业名称变更,法定代表人变更,持股比例下降,工商处罚,股权冻结,经营状态异常;
- 征信:逾期或坏账,对外担保非正常,新增小贷公司贷款,婚姻状态变更
- 司法:失信/被执行,借款人/配偶/关联企业被列入黑名单
- 税务:税务严重违法违章,纳税状态异常,信用等级下降,申报异常,收入下降,纳税额/销售收入同比增长率
3.5 指标设计
3.5.1 设计思路
指标类型分为原生指标和衍生指标,其中,衍生指标一般考虑时间切片&维度切片,指标设计如:增长率、占比、集中度、变异系数、均值、计数、求和、差值(变化次数、间隔时长等)。
3.5.2 指标示例
以下从各数据源展开,举例说明指标设计:
(1)个人征信
1. 基本信息:个人婚姻状况、信贷历史年数、学历、年龄,等
2. 贷款:个人未结清贷款笔数/机构数/余额/比例
- 不同维度考察如:业务种类(房贷/经营性贷款/消费类贷款,等)、业务管理机构(商业银行/汽车金融/消费金融/小额贷款,等)、资产质量分类(正常/关注/不良)
3. 信用卡:近X月信用卡支用比例、审批查询次数、发放账户数/机构数/金额、逾期最长期数/逾期金额
- 异常情况考察如:无效申请、冻结、止付、呆账、司法追偿、资产处置,等
4. 相关还款责任:个人未结清对外担保笔数/账户数/机构数/余额/比例
(2)企业征信
1. 借贷/担保交易:企业未结清(正常/关注/不良/…)贷款笔数/机构数/余额/比例
2. 相关还款责任:企业对外担保笔数 /账户数/ 机构数/欠息金额/余额/比例
(3)行内
1. 黑名单:个人 /配偶 /企业/关联企业是否命中黑名单、当前逾期等情况
2. 产品互斥:个人 /配偶 /企业是否为行内其他贷款产品的存量/ 在途申请 /在途授信/产品互斥客户
3. 行内业务:日均存款和理财额度、信贷关系年数
(4)司法
- 企业失信信息、被执行校验、作为被告涉及司法案件数量
(5)工商
1. 基本信息:企业法定代表人股权占比、经营年限、注册资本
2. 负面信息:企业法定代表人变更次数、工商行政处罚次数等
(6)税务
1. 基本信息:行业、纳税等级、纳税人类型
2. 负面信息: 税务严重违法违章次数、欠税次数
3. 纳税信息:申请企业完整纳税月份数、首次申报距今时长、纳税额/销售收入、利润率/增长率/占比
(7)发票
1. 经营情况:近X月销售收入/收入占比/开票金额环比、企业连续开票月份数、最大开票时间间隔
2. 开票行为:近X月红废票张数/金额占比等、开票金额/销项金额
3. 上下游交易:发票下游企业所处行业是否高风险行业、高风险行业客户交易金额占比等
(8)流水
1. 流水进出账:近X月经营活动净流入/水电气支出/原材料支出/纳税支出/工资支出交易金额/金额占比/变异系数、最大连续交易为0的月份数
2. 偿债能力:对公账户日均存款余额均值、月均净流入
(9)银联
- 银联交易总金额/金额增长率/金额占比、交易次数、非正常状态终端个数、开户时长
4 产品分析
4.1 数字化运营
监测维度:客户、产品、渠道、行业、地区,等
监测方法:时间序列、漏斗分析、对比分析、矩阵分析,等
数字化运营闭环:监控、预警、预测
报表平台配置:
- 控件:通用控件、常用控件、定制控件
- 统计表:字段取数源、计算逻辑和业务解读
- 统计图:X轴、Y轴、图类型
- 功能需求:排序、显示格式、自定义导出、链接跳转、筛选框类型、层级筛选、输入联想、下拉栏、分页,等
数字化运营报表监测框架:
- 趋势分析:业务运营趋势,余额增长,续贷留存和迁移,逾期不良,贷款投放和回收
- 漏斗分析:业务流程,策略拒绝
- 风控策略:触碰情况,分布情况,稳定性,区分力,贷中变化
- 客户画像:企业主信息,企业信息,经营情况,信用情况,负债信息(分布和还款表现对比)
- 授信清册:拒绝原因查询,逾期跟踪分析,未签约或到期营销,质量变化预警,等
4.2 数据分析
分析能力要求:
数据分析能力(编程语言、数理基础)+业务能力(产品流程和设计、业务方案、信贷业务)+主动管理(时间规划)+沟通解决问题(汇报、沟通)+创新能力(复用性)
一般分析思路:
1. 营销管理:渠道、区域、行业的营销力度和维护管理;
2. 客群分析:客群差异(收入负债,经营稳定性,融资规模,还款表现等)和迁移变化趋势(授信额度,模型、模块及指标评分变化趋势等);
3. 产品分析:产品要素分析、业务流程漏斗分析;
4. 风控分析:模型拒绝漏斗分析、规则触碰/扣分情况、评分/额度分布情况、贷前特征分析、贷中变化特征挖掘、贷中后管理和维护。
常用分析方法:
1. 漏斗分析:业务漏斗、模型漏斗;
2. 趋势分析:营销和管理力度变化,市场环境影响,客群质量变化,策略调整变更,新产品上线(如续贷),数据BUG,等;
3. 对比分析:横纵向对比分析、矩阵分析、相关性分析;
4. 账龄分析:确定产品成熟周期、分析变化趋势和影响因素。
4.3 策略优化
策略优化一般思路:
1. 明确分析目的:确认调整贷前/贷中/贷后策略,以及调优目的(A类提升通过率 / D类降低逾期率);
2. 数据定义和采集:时间范围,样本选取,好坏标签定义;
3. 数据预处理:数据清洗映射和特征计算,重点检查是否存在重复值、异常值、数据乱码、缺失率,等;
4. 策略规则分析:(剔除黑名单校验、合规授信管理、缺失率高的指标)
- A类调优:放松触碰率高指标阈值,降低扣分率高指标权重,弱化低风险的限制条件
- D类调优:单变量分析——逾期特征挖掘(有效性校验:分布集中度、业务趋势、相关性、IV、AR、交换比)——特征筛选和建模
5. 影响分析和优化:策略放松或收紧后综合授信影响分析(平衡授信规模和逾期风险)——预测还款能力和还款意愿——贷中贷前联动调整(准入、额度、反欺诈)
4.4 模型优化
评级模型优化一般思路:
1. 数据定义和采集:时间范围,样本选取,好坏标签定义(结合滚动率分析确定);
2. 数据预处理:重点检查是否存在重复值、异常值、数据乱码、缺失率,等;
3. 数据分析:模型整体稳定性、区分度、分布集中情况
4. 数据划分:训练集/测试集;
5. 特征工程:单变量分析——特征筛选(方差、共线性、IV、AR、排序性、业务含义)——指标分档;
6. 模型训练:模块权重、指标权重、指标分档、评级映射、评分分数校准;
7. 模型评估:授信影响、逾期风险控制、模型分布稳定性(PSI)和区分力(AR/AUC/ROC/KS);
8. 压力测试
5 特别鸣谢
文中内容主要来源于工作经验中所得,部分内容描述参考公众号“金科应用研院FAL”。