数据清洗
数据清洗的主要目的是对缺失值、噪声数据、不一致数据、异常数据进行处理和对上述数据质量问题分析时发现的问题进行处理,使得清洁后的数据格式符合标准、不存在异常数据等。
1.缺失值的处理
(1)忽略有缺失值的数据。若某条数据存在缺失项,就删除该条记录;若某个属性列缺失值过多,则在整个数据集中删除该属性,但有可能因此损失大量数据。
(2)进行缺失值填补。可以填补某一固定值、平均值或者根据记录填充最有可能值。可能会利用决策树、回归分析等。
2.噪声数据的处理
(1)分箱技术
分箱技术通过考察相邻数据来确定最终值,可以实现异常或噪声数据的平滑处理。基本思想是按照属性值划分子区间,若属性值属于某个子区间,就将其放入该子区间对应的“箱子”内。箱的深度表示箱中所含数据记录条数,宽度则表示对应属性值的取值范围。
(2)聚类技术
聚类技术是将数据集合分组为由类似的数据组成的多个簇。聚类技术主要用于找出并清除那些落在簇之外的值(孤立点)。这些孤立点被视为噪声。
(3)回归技术
通过发现两个相关变量之间的关系,寻找适合两个变量之间的映射关系来平滑处理,即通过建立数学模型来预测下一个数值。
3.不一致数据的处理
需根据实际情况给出处理方案,可以使用相关材料进行人工修复、对不同源数据