数据清理试图填充缺失的值,光滑噪声并识别离群点
一. 缺失值 解决办法
1.忽略元组(缺失较多属性)
2.人工填写缺失值(费时)
3.使用一个全局常量填充缺失值(方法简单,但并不可靠)
4.使用属性的均值填充缺失值
5.使用与给定元组属同一类的所有样本的属性均值
6.使用最可能的值填充
二.噪声(是被测量的变量的随机误差)光滑数据方法
1.分箱(binning):通过考擦数据的近邻来光滑有序数据的值(用箱均值光滑、用箱中位数光滑、用箱边界光滑)
2.回归:可以用一个函数你和数据来光滑数据
3.聚类:可以通过聚类检测离群点,将类似的值组织成群活簇
4.概念分成:把连续值映射为几个类
三.偏差检测---数据清理的第一步
1.元数据检测(数据库约束)
2.编码问题
3.数据表示不一致(日期格式)
4.字段过载(新属性的定义挤压到已有属性未使用的部分)