18、机器学习数据处理全攻略:从缺失值修复到特征创建

机器学习数据处理全攻略:从缺失值修复到特征创建

1. 修复缺失数据

在机器学习中,即使有足够的训练示例,特征中的数据也必须完整,缺失数据会使特征内和特征间的信号连接变得不可能,也会增加算法训练的难度。

1.1 识别缺失数据

首先,统计每个特征中的缺失案例数量。如果某个特征超过 90% 的实例缺失,通常需要将其从训练和测试数据集中删除。部分学习算法无法处理缺失值,会在训练和测试阶段报错;还有些模型会将缺失值视为零,导致预测值或概率被低估。因此,为了使机器学习正常进行,需要用合适的值替换数据矩阵中的所有缺失值。

缺失数据的原因多种多样,关键在于数据是随机缺失还是按特定顺序缺失。随机缺失的数据较为理想,可以使用简单的平均值、中位数或其他机器学习算法来推测其值。而非随机缺失的数据则存在问题,例如在研究人口收入时,富人可能因税收原因隐瞒收入,穷人可能因害怕负面评价而不愿报告收入。这种情况下,不能简单地用平均值替换缺失值,而需要采用复杂的方法并仔细调整。识别非随机缺失的数据较为困难,需要仔细检查缺失值与数据集中其他特征的关联。

当数据随机缺失时,可以从其他特征中获取提示来修复空值;当数据非随机缺失时,除非了解缺失案例与数据的关联,否则难以从其他可用信息中获得有效提示。例如,如果数据中的收入缺失是因为此人富有,就不能用简单的平均值替换,而应使用富人收入的平均值。

当数据非随机缺失时,值的缺失本身就具有信息价值,可以通过创建一个新的二进制特征来指示某个特征的值何时缺失,让机器学习算法自行找出最佳的替换值。

1.2 选择合适的替换策略

处理缺失数据有多种有效策略,具体策略可能因处理定量(以数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值