【博客地址】:https://blog.youkuaiyun.com/sunyaowu315
【博客大纲地址】:https://blog.youkuaiyun.com/sunyaowu315/article/details/82905347
对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料,可添加微信:wu805686220(记得要备注喔!),也可关注微信公众号:风控圏子(别打错字,是圏子,不是圈子,算了直接复制吧!)

关注公众号后,可联系圈子助手加入如下社群:
- 机器学习风控讨论群(微信群)
- 反欺诈讨论群(微信群)
- python学习交流群(微信群)
- 研习社资料(qq群:102755159)(干货、资料、项目、代码、报告、课件)
相互学习,共同成长。
问题:
- Logistic算法的原理是啥啊?
- 为何用卡方分箱?
- 为何需要woe编码呢?
- 变量bad rate必须满足单调性吗?
- 为何要检验变量的正负性、单调性、相关性?
- IV值有什么用啊?该怎么判断呢?
- 最终标准评分怎么转换的?为什么要加一个截距项呢?
文章目录
一 Logistic算法原理
1、基本概念
逻辑斯蒂回归(logistic regression )是统计学中的经典分类方法,属于广义线性模型(generalizedlinear model)。虽然名字里带“回归”,但它实际上是一种分类方法,与多重线性回归有很多相同之处,最大的区别就在于它们的因变量取值不同。
广义线下模型家族:
- 若因变量是连续分布,就是多重线性回归
- 若因变量是二项分布,就是Logistic回归
- 若因变量是Poisson分布,就是Poisson回归
- 若因变量是负二项分布,就是负二项回归
Logistic是这样一个过程:对一个回归或者分类问题,建立代价函数,通过优化方法迭代求解出这个函数的最优参数,然后测试验证这个模型的好坏。
2、算法特点
优点:
- 速度快,适合二分类问题
- 易解释,可以直接看到模型中各个变量的权重
- 易调整,能容易地更新模型,吸收新的数据
缺点:
- 对数据和场景的适应性有限,精度一般,不如树模型、SVM、adaboost等一些其他的常用分类模型给力。
3、算法应用
在Logistic回归模型中,y是一个定性变量,比如y=0或1,故其主要应用于研究某些分类事件发生的概率,如:银行业金融借贷场景中预测风险客户的违约逾期概率;气象局根据一些天气因素判断是否下雨;医疗机构根据病情特征