缺失值与噪声处理

缺失值处理

1 忽略元组:当类标号缺少时通常这样做,多个属性缺失时,不是很有效

2 人工填写缺失值:费时

3 使用一个全局常量填充缺失值:如Unknown或无穷大等替换,方法简单,但是挖掘程序可能误认为Unknown有意义

4 使用属性的平局值填充缺失值

5 使用与给定元组属同一类的所有样本的平均值填充缺失值

6 使用最可能的值填充缺失值:可以用回归、基于推到的使用贝叶斯形式化方法的工具或判断书归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗判定树,来预测income的缺失值。


3-6使数据倾斜,填入的值可能不正确,方法6是最常用的方法,它使用现存数据的多数信息来推测缺失值。

贝叶斯网络和人工神经网络,从理论上来说,贝叶斯考虑了一切,但是只有的当数据集较小或满足某些条件(如多远正态分布)时完全贝叶斯分析才是可行的。不完全数据的表达方法所依据的理论有可信度理论、概率论、模糊集合论、可能性理论、D-S的证据理论等。


噪声数据

1 分箱(binning),通过考察“邻居来平湖存储数据的值

2 计算机和人工检查相结合

3 回归

4 聚类

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值