数据的预处理

  按照道理而言,预处理就基本上进入数据挖掘的技术阶段了,目前自己还是一个小白而已,就说说自己从书上学到的一些吧。

 

  数据清理: 就是对某些特殊的情况进行处理,让挖掘的数据质量更高些,更容易得到更好的结果。

  1.缺失值处理

  判断缺失值,我自己喜欢用 A = which( is.na(nhanes2[,4]) == T )

  ①删除法, 习惯用 good  = nhanes2[-A,0],   bad = nhanes2[A,0]

  ②插补法,一种最简单的方法是用good中数据作为样本进行抽取,来替换bad中的数据

 

  对于替换方式还有其它的很多种,均值替换,中位数替换,众数替换等等,高端点的是用线性回归模型来拟合数据进行替换。

 

  2.噪声数据处理

  噪声数据实际就是数据中的离群点,奇异值之类的,对结果容易造成特别大的偏差。

  使用的包名为outliers.

  使用的函数是outlier()   其中里面有一个opposite参数,它的取值用T和F,T代表取值为最远离群值相反的值

 

  3.数据不一致的处理

  这个还是不太清楚,还是遇到了实际的,学到了新知识,再来更新。

 

  4.数据的集成

  对数据集按照统计的方法进行检验,查看,并进行处理。

 

  5.数据的变换和规约

  遇到了具体的再补上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值