数据预处理--数据清洗

现实世界中的大多数数据失不完整的、有噪声和不一致的。那么就需要对“脏”的数据进行数据清理。数据清理就是对数据进行重新审查和校验的过程,其目的在于纠正存在的错误,并提供数据一致性。

1.填充缺失值

忽略元组:当缺少类标号时通常这样做(假设挖掘任务涉及分类)。

人工填写缺失值:费时费力

使用一个全局变量填充:可能误导挖掘程序得出错误结论,需小心使用

用属性的均值填充缺失值

用同类样本的属性均值填充缺失值

使用最可能的之填充缺失值:使用回归、贝叶斯形式化的基于理论的工具或决策树归纳确定。

2,光滑噪声数据

噪声是指被测量变量的随机误差或方差。

分箱:由于分箱考查近邻的值,因此用来进行局部光滑。箱可以等宽,也可以不等宽。

如某课程程序排序后的数据为:61,66,68,73,77,78,85,88,91。将上述排序的数据划分为等深的箱。

箱1: 61,66,68

箱2:73,77,78

箱3:85,88,91

采用分箱平滑技术后,用平均值平滑得到

箱1: 65,65,65

箱2:76,76,76

箱3:88,88,98

用边界平滑得到:

箱1:  61,68,68

箱2:73,78,78

箱3:85,88,91

回归

利用一个函数进行数据拟合达到光滑数据的目的。线性回归或多元线性回归。

聚类

可通过聚类检测离群点,将类似的值组织成群或“簇”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值