数据清理及特征处理
介绍
在收集到的数据中,经常会遇到一些不规范的数据,如缺失数据、重复数据、无效数据等,因此在进行数据分析之前,一定要对数据进行清理,并提取出目标数据。
在这里主要使用pandas来进行数据处理。
缺失值处理
在pandas中,缺失数据使用NA表示,缺失值判断的相关函数:
- dropna
- fillna
- isnull
- notnull
可以根据不同场景来使用
重复值处理
在DataFrame中,通过duplicate方法返回一个布尔型的Series,表示各行是否是前面出现过的行,然后通过drop_duplicate方法删除,它们默认保留的是第一个出现的值组合。
特征处理
References
-
利用python进行数据分析,该链接的图片可能无法显示,可以查看github地址,也可在微信读书上查看该书