缺失值处理
1 忽略元组:当类标号缺少时通常这样做,多个属性缺失时,不是很有效
2 人工填写缺失值:费时
3 使用一个全局常量填充缺失值:如Unknown或无穷大等替换,方法简单,但是挖掘程序可能误认为Unknown有意义
4 使用属性的平局值填充缺失值
5 使用与给定元组属同一类的所有样本的平均值填充缺失值
6 使用最可能的值填充缺失值:可以用回归、基于推到的使用贝叶斯形式化方法的工具或判断书归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗判定树,来预测income的缺失值。
3-6使数据倾斜,填入的值可能不正确,方法6是最常用的方法,它使用现存数据的多数信息来推测缺失值。
贝叶斯网络和人工神经网络,从理论上来说,贝叶斯考虑了一切,但是只有的当数据集较小或满足某些条件(如多远正态分布)时完全贝叶斯分析才是可行的。不完全数据的表达方法所依据的理论有可信度理论、概率论、模糊集合论、可能性理论、D-S的证据理论等。
噪声数据
1 分箱(binning),通过考察“邻居来平湖存储数据的值
2 计算机和人工检查相结合
3 回归
4 聚类
1858

被折叠的 条评论
为什么被折叠?



