8、数据预处理与特征工程:缺失值填充、数据集划分及特征筛选

数据预处理与特征工程:缺失值填充、数据集划分及特征筛选

1. 运用随机森林进行缺失值填充

随机森林是一种集成学习方法,它采用自助聚合(也称为装袋)来提高模型的准确性。其通过重复计算多棵树的均值进行预测,从而逐渐得到更优的估计结果。我们将使用 MissForest 算法来进行缺失值填充,该算法是随机森林算法在缺失值填充方面的应用。

1.1 MissForest 算法原理

MissForest 算法首先用中位数(针对连续特征)或众数(针对分类特征)填充缺失值,然后利用随机森林预测值。使用这个经过转换的数据集(缺失值已被初始预测值替代),MissForest 会生成新的预测值,有可能用更好的预测值替代初始预测值。通常,MissForest 会至少进行四轮这样的迭代过程。

1.2 操作步骤

以下是使用 MissForest 算法对工资收入数据进行缺失值填充的具体步骤:
1. 导入模块并加载数据

import pandas as pd
import numpy as np
import sys
import sklearn.neighbors._base
sys.modules['sklearn.neighbors.base'] = sklearn.neighbors._base
from missingpy import MissForest
nls97 = pd.read_csv("data/nls97b.csv")
nls97.set_index("personid", inplace=True)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值