为什么要用随机森林对缺失值填补!
- 缺失值的填充往往会训练的结果,在闲时不妨尝试多种填充然后比较结果选择结果最优的一种;
- 多学一点又不会死。
随机森林填充缺失值优点
- 随机森林填补通过构造多棵决策树对缺失值进行填补,使填补的数据具有随机性和不确定性,更能反映出这些未知数据的真实分布;
- 由于在构造决策树过程中,每个分支节点选用随机的部分特征而不是全部特征,所以能很好的应用到高维数据的填补;
- 随机森林算法本身就具有很好的分类精度,从而也更进一步确保了得到的填补值的准确性和可靠性。
开始!冲!
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
1.创建数据特征矩阵
data = pd.DataFrame({
'id':[1,np.nan,np.nan,np.nan,5,6],'name':[22,np.nan,12,2