资源包放在我上一个链接了,是免费的,大家自行取用就好
分析缺失值,在excel中可以看到有很多的表格是空着的,或者是0,现在来统计一下这些缺失值主要存在于哪里
首先我们导入库
import pandas as pd
其次我们导入文件,使用第0列,也就是俗称的第一列作为索引
datafile='C:\\Users\\Administrator\\Desktop\\Test\\shujufenxi\\yuchuli\\cs-training.csv'
data=pd.read_csv(datafile,index_col=[0])
进行转置,为了更好地观察
制定空值怎么得到
data_st=data.describe().T #读取数据,T表示转置,能更好地观察数据
data_st['null']=len(data)-data_st['count'] #空值的记录数=总记录数-非空值记录数
选取统计好的这几列内容并重新命名
data_st=data_st[['count','null','max','min']] #选取统计中的这几列内容
data_st.columns=['总样本数','空值','最大值','最小值'] #重命名列
print(data_st)
最后导出发现空值集中于月收入和家庭成员中
后面我将继续介绍月收入和家属数量的统计分析~