按照道理而言,预处理就基本上进入数据挖掘的技术阶段了,目前自己还是一个小白而已,就说说自己从书上学到的一些吧。
数据清理: 就是对某些特殊的情况进行处理,让挖掘的数据质量更高些,更容易得到更好的结果。
1.缺失值处理
判断缺失值,我自己喜欢用 A = which( is.na(nhanes2[,4]) == T )
①删除法, 习惯用 good = nhanes2[-A,0], bad = nhanes2[A,0]
②插补法,一种最简单的方法是用good中数据作为样本进行抽取,来替换bad中的数据
对于替换方式还有其它的很多种,均值替换,中位数替换,众数替换等等,高端点的是用线性回归模型来拟合数据进行替换。
2.噪声数据处理
噪声数据实际就是数据中的离群点,奇异值之类的,对结果容易造成特别大的偏差。
使用的包名为outliers.
使用的函数是outlier() 其中里面有一个opposite参数,它的取值用T和F,T代表取值为最远离群值相反的值
3.数据不一致的处理
这个还是不太清楚,还是遇到了实际的,学到了新知识,再来更新。
4.数据的集成
对数据集按照统计的方法进行检验,查看,并进行处理。
5.数据的变换和规约
遇到了具体的再补上