现实世界中的大多数数据失不完整的、有噪声和不一致的。那么就需要对“脏”的数据进行数据清理。数据清理就是对数据进行重新审查和校验的过程,其目的在于纠正存在的错误,并提供数据一致性。
1.填充缺失值
忽略元组:当缺少类标号时通常这样做(假设挖掘任务涉及分类)。
人工填写缺失值:费时费力
使用一个全局变量填充:可能误导挖掘程序得出错误结论,需小心使用
用属性的均值填充缺失值
用同类样本的属性均值填充缺失值
使用最可能的之填充缺失值:使用回归、贝叶斯形式化的基于理论的工具或决策树归纳确定。
2,光滑噪声数据
噪声是指被测量变量的随机误差或方差。
分箱:由于分箱考查近邻的值,因此用来进行局部光滑。箱可以等宽,也可以不等宽。
如某课程程序排序后的数据为:61,66,68,73,77,78,85,88,91。将上述排序的数据划分为等深的箱。
箱1: 61,66,68
箱2:73,77,78
箱3:85,88,91
采用分箱平滑技术后,用平均值平滑得到
箱1: 65,65,65
箱2:76,76,76
箱3:88,88,98
用边界平滑得到:
箱1: 61,68,68
箱2:73,78,78
箱3:85,88,91
回归
利用一个函数进行数据拟合达到光滑数据的目的。线性回归或多元线性回归。
聚类
可通过聚类检测离群点,将类似的值组织成群或“簇”。