用预测来填补。
DMwR包 knnlmputation(),利用knn进行填补,数据集要求剔除因变量,即响应变量。
但是 knnlmputation(),对于因子变量的取值,其效果不是很好。这是可以考虑用回归树
repart函数里边的参数说明,当取值为数值型method用anova,当为因子型用class。
----------------------------------
填补缺失值还可以根据变量之间的相关性:当两两变量存在很强的相关性的时候可以利用回归的方法进行填补,当然,也可以根据强相关的变量的取值趋势进行填补
-------------------------------
本文介绍了几种常见的缺失值填补方法,包括使用DMwR包中的knnlmputation()函数进行k近邻填补,针对不同类型的变量选择合适的repart回归树方法,以及基于变量间相关性的回归填补方法。
2701

被折叠的 条评论
为什么被折叠?



