暂时没有空进行直接演示,所有没有图片,只是看着教程,总结一些知识点,后面会实操,并把图片给补上,可视化非常重要!!!
DataFrame里面的缺失值使用NaN表示
查看缺失值
使用df.info()方法能够实现每一列数据总数,如果与其他列数的总数不一致,就是该列出现了缺失值
判断是否存在缺失值
df.isull()方法和df.notnull()方法,展示True或者False,这个更直观
删除缺失值
df.dropna()方法可以删除存在缺失值的一整行数据,无论哪一列出现缺失值,都会把整行数据给删除
提取某一列数据不存在缺失值的数据
df[df[‘列名’].notnull()]
缺失值填充
df.['列名'] = df.['列名'].fillna('填充的内容')
判断是否有重复值
df.duplicated()
去除重复的数据
df.drop_duplicates(keep='last),keep参数的作用是保留哪一个重复值,默认是保留第一个,去除其他的重复值,如果keep=“last'就是保留最后一个,去除其他的重复值