1.数据类型的分析(假设数据为'data.csv')
首先读入数据,这个数据是csv格式,可以用pandas来读,如果读不进来的时候,可以用记事本打开'data.csv'然后另存为'data_2.csv'并且保存为'utf-8'的编码格式。然后读取数据。
import pandas as pd
'''read data'''
data = pd.read_csv('data_2.csv')
row, col = data.shape
在Variable explorer 里可以看到读入的data,在这里为了方便给出部分数据,从下图中可以看到数据中既有数字,也有汉字,字符,时间数据,此外还有缺失值nan,除此之外还有一些对数据分类没有用的特征,因此接下来我们需要对数据进行无关特征的剔除。
2.无关特征剔除
在此数据中,由于是金融数据并预测贷款用户是否会逾期,暂时将两个对分类结果无关的特征剔除
data.drop('bank_card_no',axis = 1, inplace = True)
data.drop('id_name',axis = 1, inplace = True)
3.缺失值处理一
对于缺失值,最简单的方法就是将所有缺失的数据删掉(data=data.dropna()),但是如果缺失数据较多时会造成可用数据量减少,此数据原始数据为:4754×90,如果将缺失全部删掉,数据为1534×90,因此需要对此数据进行填补,在对此数据进行填补前需要先考虑数据的缺失情况。为避