模型开发SOP是什么
模型开发sop即指“模型开发标准操作程序”,将开发过程统一为标准操作步骤和要求,用来指导和规范日常的工作。
业务有什么样的需求,模型就要做针对性的设计。然而,开发一个好的模型并不是一件轻而易举的事情。所以要确保各个环节合理有效,才能完成整个项目的交付。关键要点包括模型定位的合理性、数据质量的可靠性、建模方法的适用性、模型输出的准确性,以及模型表现的稳定性。
关注“金科应用研院”,回复“优快云”
领取“风控资料合集”
模型开发SOP的重要作用
(1)可以流程化可重复工作,提高建模效率
(2)便于连接上下游部门,提高沟通效率
模型开发的6个环节
1、立项需求
需求由业务方或策略方发起,确定需求模型开发方的原因和使用场景。
比如,信用风险模型主要是为了评估用户还款能力和还款意愿;反欺诈反作弊模型防止用户骗贷、薅羊毛和保证平台安全等功能;资本计量模型主要适用于 Basel 体系确定最低资本要求和进行压力测试。
2、数据回溯
数据是模型开发的要素,该环节一定要与需求方确认样本和数据源后,判断是否需要回溯、回溯的数据量以及预计成本(需要接入哪些第三方数据)。
数据一般分为内部数据与外部数据。内部数据是企业内部搜集存储的客户信息,例如商户在平台的销售、贷款、运营信息,客户的登陆、注册、消费信息等;外部数据一般为第三方数据,例如人行征信报告、运营商数据、第三方机构提供的多头借贷数据等。
模型开发文档中需明确列出所用到的数据来源和特征列表,并且需要多方确认数据可用,包括持续稳定和监管许可等。
3、模型开发
是建模工作的主要过程,包括宽表准备(基础数据)、数据清洗、特征筛选、模型选择、模型训练和模型评估。
1.宽表准备:
这部分的主要工作内容是确定建模样本,并提取相关数据,数据一定要是结构化的,如果不是结构化的则必须要能转换成结构化数据,有了结构逻辑才能被程序计算处理。
一般而言,对于类别型特征变量,常见的处理方法有:
自然数编码/序列编码(Ordinal Encoding)
序号编码(Label Encoding)
均值编码
WOE转换等方法
2.数据清洗:
数据清洗主要是对已准备好的数据做处理,比如某列数值型数据中包含字符串型数据,存在重复的数据等一系列不合理的情况。
3.特征待选:
从原始数据中筛选出对预测变量有较大权重的特征,重点训练。
常见的特征选择方法:
(1)Filter方法(过滤式)
Chi-squared test(卡方检验)
Information gain(信息增益)
Correlation coefficient scores(相关系数)
(2)Wrapper方法(包裹式)
递归特征消除算法
(3)Embedded方法(嵌入式)
简单易学的机器学习算法–岭回归(Ridge Regression)
4.模型选择:
据一组不同复杂度的模型表现,即从某个模型空间中挑选最好的模型。
一般而言模型选择准则有如下几种:
重复抽样与预测稳定性角度:CV、GCV、Boostrap
似然与模型复杂度角度:AIC、AICc、BIC、EBIC
VC维与风险上界控制角度:SRM
5.模型训练:
训练模型就是用已有的数据,通过一些方法(最优化或者其他方法)确定函数的参数,参数确定后的函数就是训练的结果,使用模型就是把新的数据代入函数求值。
简单来说就是:我打一个游戏,开局要选职业,不同的职业装备不同,法师是法杖配魂器,战士是长剑配盾牌,射手是长弓配箭矢,我选择一个职业,这就叫选择模型。
不同的武器有不同的属性,法杖有法力值,魂器有召唤力,长剑有攻击力,盾牌有防御值,长弓有韧性,箭矢有射速和重量,这些都叫做模型的参数。
游戏开始了,我不断的打怪,加点,调整属性点的分配方案,这叫做训练一个模型。最终通过不断地尝试各种点数分配方案,我找到了一个最佳方案,打怪再也不用师傅带了,这模型就算训练好了。
6.模型评估:
模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
模型评估的常见的五个⽅法:
混淆矩阵
提升图&洛伦兹图
基尼系数
ks曲线
roc曲线
4、离线生产
通过模型评审后,配置好模型的离线生产,包括历史分区的回刷和每日的例行生产。
5、线上生产
完成模型的离线生产后,进行模型的线上部署包括生产的配置、测试以及空跑校验。
6、模型监控
完成模型的离线生产和线上生产后,对模型进行各维度的监控,确定是否迭代,形成模型工作闭环。
以上内容参考:FAL的量化风险建模师-认证班