数据缺失值处理方法
① 删除缺失值
改变了样本原始的数据分布,在缺失值过多的情况下不宜采用
② 均值填补法
若缺少的属性是数值型,则将其他数据对象该属性的值取平均后填入;若缺少的属性是非数值型,则根据众数原理将其他数据对象中该属性出现最多的值填入;
(对均值不会有太大影响,但是方差与标准差会变小)
③ 热卡填充法
对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似度进行判定
④ 最近距离决定填补法
若变量Y的变化基于其他变量X变化序列而言变化很小,与最近的X相关度很大,则根据X的值将Y的值填充好
⑤ 回归填补法
将其他未缺失属性的数据进行训练,使用回归的方法对缺失值Y进行训练,得到的模型再对缺失数据中的属性进行预测。
(根据变量或者变量组X预测Y,可能增大了属性之间的关联度)
⑥ 多重填补法(M-试探法)
⑦ k-最近邻法
⑧ 有序最近邻法
⑨ 基于贝叶斯的方法
对缺失属性的重要度进行排序,然后先将最重要的数据预测出来,然后将此数据加入到数据集中,运用贝叶斯定理将预测第二个重要属性,以此类推
参考:
http://blog.sina.com.cn/s/blog_66239fdb0101kfqw.html
http://mp.weixin.qq.com/s/YrCC8CmP6UKuCmSdF2K_3g