一、前言
在个人理解中,首先我们拿到一份数据后会经过以下几个流程:
1.清除数据的重复值
2.填充数据中的NULL值,空值
3.清洗数据中带有异常符号的值(最为困难)
4.更改数据类型
5.重建数据的索引
因此,我打算从这四个方面总结以下我们常用的函数。
1.1查看重复值
1.DataFrame.duplicated()
这个函数可以查看行与行间是否具有重复值,返回布尔值
如果是DataFrame.duplicated([‘v1’]),
如果指定v1列,则是查看v1列的重复值;也可以传入多个列
2.DataFrame.drop_duplicates()
删除行与行的重复值;同样可以指定删除某列或多列的重复值,它的一个参数为keep=‘last’,即保留最后的一个重复值。
1.2填充数据中的NULL值,空值
1.查看缺失值isnull(),notnull()