最近看的一些风险信贷相关的一些写的比较详细的博客,还有使用sklearn进行特征工程的博客,单纯的进行简单整理和记录,详细的可以点击链接。
1.Python案例分析之客户信贷预测模型
来自 https://blog.youkuaiyun.com/weixin_43656359/article/details/104683553
文章发布于2020-3-14
该网页中内容主要介绍了客户信贷预测的一般流程,主要包括数据清洗、建模、预测三部分,使用的数据集是Lending club平台的业务数据,共有52个变量,39522条记录。
详细步骤如下:
- 对数据集中缺失率超过一半的列进行剔除
- 样本中对银行评定是否放贷并没有任何影响,与预测没有关系的标签,结合实际情况进行剔除。
- 去掉标签中只有一种属性的列
- 对数据进行LabelEncoder 或者OneHotEncoder编码
- 处理缺失值,对于缺失量不是很多的数据,可以直接去掉缺失值所在的行。对于缺失量比较多的数据,说明该数据存在的问题,再将该特征进行删除
- sk-learn库不接受字符型的数据,将特征中的字符型数据进行处理,该部分使用了get_dummies(),get_dummies就是OneHotEncoder类型编码。
关于什么时候用OneHotEncoder独热编码和LabelEncoder标签编码? 特征的属性小于等于3
,用OneHotEncoder,比如:天气、性别 ,属于无序特征 特征的属性大于3,用LabelEncoder,比如:星期属于有序型
- 接下来是模型

本文汇总了使用Python进行信贷风险数据分析的案例,涉及LendingClub数据建模,通过sklearn进行特征工程,包括数据预处理、缺失值处理、编码方法以及逻辑回归模型的构建和评估。探讨了特征选择、降维技术,并分享了相关资源链接。
最低0.47元/天 解锁文章
1278

被折叠的 条评论
为什么被折叠?



