数据预处理与特征工程:缺失值填充、数据集划分及特征筛选
1. 运用随机森林进行缺失值填充
随机森林是一种集成学习方法,它采用自助聚合(也称为装袋)来提高模型的准确性。其通过重复计算多棵树的均值进行预测,从而逐渐得到更优的估计结果。我们将使用 MissForest 算法来进行缺失值填充,该算法是随机森林算法在缺失值填充方面的应用。
1.1 MissForest 算法原理
MissForest 算法首先用中位数(针对连续特征)或众数(针对分类特征)填充缺失值,然后利用随机森林预测值。使用这个经过转换的数据集(缺失值已被初始预测值替代),MissForest 会生成新的预测值,有可能用更好的预测值替代初始预测值。通常,MissForest 会至少进行四轮这样的迭代过程。
1.2 操作步骤
以下是使用 MissForest 算法对工资收入数据进行缺失值填充的具体步骤:
1. 导入模块并加载数据 :
import pandas as pd
import numpy as np
import sys
import sklearn.neighbors._base
sys.modules['sklearn.neighbors.base'] = sklearn.neighbors._base
from missingpy import MissForest
nls97 = pd.read_csv("data/nls97b.csv")
nls97.set_index("personid", inplace=True)
超级会员免费看
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



