本文对任务1的数据进行了初探与可视化处理。
任务目标:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。
任务要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018
代码运行环境:
Jupyter
Python 3.6
Pandas 0.24.2
matplotlib 3.0.3
seaborn 0.9.0
Overview: 数据内容
df.head()
df.info()
显示数值特征的一些信息
df.describe()
可以只显示存在缺失值的行列,清楚的确定缺失值的位置