对于离散变量而言,经常有缺失值,对于缺失值有如下处理方法:
1. 如果数据集很大,缺失值很少,可以删除缺失值;
2. 如果这个属性对结果的影响很大,可以用均值或者众数来代替;
3. 如果属性是连续型随机变量可以考虑用回归、随机森林等方法来预测缺失值;
。。。。
对于离散变量而言,经常有缺失值,对于缺失值有如下处理方法:
1. 如果数据集很大,缺失值很少,可以删除缺失值;
2. 如果这个属性对结果的影响很大,可以用均值或者众数来代替;
3. 如果属性是连续型随机变量可以考虑用回归、随机森林等方法来预测缺失值;
。。。。