
金融数据分析
楓尘林间
计算机爱好者
展开
-
为什么金融领域建模需要进行WoE和IV
金融领域(尤其是评分卡)建模,模型并不复杂,虽然网上到处都是神经网络、xgboost的文章,但当下的建模过程中(至少在金融风控领域)并没有完全摆脱logistic模型,原因大致有以下几点:1.logistic模型客群变化的敏感度不如其他高复杂度模型,因此稳健更好,鲁棒性更强。2.模型直观。系数含义好阐述、易理解。对金融领域高管以及银行出身的建模专家,变量系数可以跟他们的业内知识做交叉验证,更容易让人信服。3.也是基于2的模型直观性,当模型效果衰减的时候,logistic模型能更好的诊断病因。在使转载 2020-08-23 14:35:05 · 2282 阅读 · 0 评论 -
风控场景下的常用特征分箱介绍:BestKs分箱、卡方分箱、聚类分箱等
构建风控模型时,常用特征的分箱方法可以分为两大类:有监督 Best-KS ChiMerge无监督 等频 等距 聚类有监督Best-KSChiMerge卡方阈值的确定: 根据显著性水平和自由度得到卡方值 自由度比类别数量小1。例如:有3类,自由度为2,则90%置信度(10%显著性水平)下,卡方的值为4.6。阈值的意义 类...原创 2020-06-02 17:34:24 · 10425 阅读 · 2 评论 -
皮尔森相关系数与方差膨胀因子介绍及关系 附python代码
1.皮尔森相关系数参考文档:https://www.zhihu.com/question/208520042.方差膨胀因子图片来源:http://sofasofa.io/forum_main_post.php?postid=1000484R²称为可决系数(Coefficient of determination)。复相关系数Ri等于:(来源百度百科)3.二者区别皮尔森相关系数:复相关系数R:图片来源:https://zhuanlan.zhihu.com/p/37605060皮尔森原创 2020-05-21 20:10:59 · 6778 阅读 · 0 评论