任务一
做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析。这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期。
1.查看数据
可以使用excel或者SPSS等分析软件打开文件进行查看,当然是数据量允许的情况下才能用excel打开,否则你的电脑会一直转圈圈。还有就是可以导入python查看,一般python导入数据使用的是pandas库,导入数据常常会遇到编码问题,可以尝试其他编码导入,或者查看文件编码再导入。具体代码如下:
#导入numpy和pandas库
import numpy as np
import pandas as pd
#data=pd.read_csv('E:/data/data.csv') 显示编码不对
#data=pd.read_csv('E:/data/data.csv',encoding='utf-8') 加入编码,发现还是错的
data=pd.read_csv('E:/data/data.csv',encoding='gbk') #试了一下其他编码,这是正确的
查看数据的步骤:
(1)查看数据前几行或者后几行,了解数据的大体;
(2)查看数据大小,几行几列;
(3)数据标签的分布情况;
(4)数据的特征(列名);
(5)每