前言
数据清洗是机器学习项目中最为琐碎而又繁重的工作之一,下面总结一些经常用到的数据清洗方法与Python实现,以探索能否用更加自动化的手段来简化数据清洗工作。
包括:
1.缺失值处理
2.格式内容清洗
3.重复值处理
4.不一致数据处理
5.错误数据处理
6.离群点处理
7.高杠杆点处理
8.强影响点处理
1 缺失值
缺失值是最常见的数据问题之一,按缺失比例,我们大致可以将数据的缺失分为两种情况:
1)严重缺失
这种情况首先尝试从其他渠道获取缺失的数据;
或尝试从其他数据中间接获取缺失的数据;
如果实在无法获取,只好删除该条数据;
2)少量缺失
当缺失数据不重要且数据量较大,删除该数据没有太大影响时,可以直接删除;
否则应当采取填充的方式处理缺失值,填充方法有以下几种:
a.人工填充:当数据量较小时,可以人工根据业务经验填充缺失值
b.全局变量填充:将缺失的数据值用常量或“unknown”等标记填写,但需要注意的是当用“unknown”时,算法会把“unknown”也当做一种数据特征,除非在业务中数据的缺失代表某种实际意义,否则很少采用这种填充方式
c.使用中心度量填充:如均值或中位数,对于正态分布的数据可以采用均值填充,偏态数据可以用中位数填充,可以采用全量数据的中心度量值,也可以