机器学习之零基础入门金融风控---贷款违约挑战赛(数据分析)

本文介绍了一次金融风控领域的机器学习实战经验,从数据集的基本情况出发,探讨了贷款违约预测模型的数据预处理策略,包括缺失值处理及异常值检测等,并通过可视化手段展示了关键特征的分布情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习之零基础入门金融风控—贷款违约挑战赛
比赛链接见上一篇贷款违约挑战赛赛题理解

一、本期目标

  1. 数据总体了解:
    a. 读取数据集并了解数据集大小,原始特征维度;
    b. 通过info熟悉数据类型;
    c. 粗略查看数据集中各特征基本统计量;
  2. 缺失值和唯一值:
    a. 查看数据缺失值情况b. 查看唯一值特征情况
  3. 深入数据-查看数据类型
    a. 类别型数据
    b. 数值型数据
    离散数值型数据
    连续数值型数据
  4. 数据间相关关系
    a. 特征和特征之间关系
    b. 特征和目标变量之间关系
  5. 用pandas_profiling生成数据报告#

二、针对特征数据进行分析

我的数据分析代码是在Anaconda上跑的,绘制图形非常方便:

在这里插入图片描述

分析特征发现违约与不违约的用户,在工作年限、信用等级、债务比、年收入、delinquency_2years、公共记录没有明显的关联
在这里插入图片描述
接下来提取n0~n14的特征进行观察:违约与不违约用户的分布规律差异不大,如下是n9/n10的数据分布:
在这里插入图片描述
到这里个人感觉先补充缺失值、消除异常值后交给模型来解决吧!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值