特征工程:缺失值处理

缺失值包含的不止是字面意思那样为空的值,比如-999,-1或其他特殊字符也可能代表缺失值

隐藏的缺失值

当遇到特殊数字-1之类的情况时,我们如何确定它代表的是缺失值呢?我们可以画出特征的分布图,如果-1远离大部分值的分布范围,那极有可能-1代表的就是缺失值
在这里插入图片描述

缺失值填充

1.-999,-1等
相当于把缺失的情况当做一种特殊类别来处理,对linear model,神经网络性能有影响

2.均值,中位数等
对linear model,神经网络效果较好,基于树的模型会导致难以做出判断

3.根据具体情况重建缺失值
新增一个特征,标记该行是否有缺失值
在这里插入图片描述
注意:在利用已有特征生成新特征之前,要十分小心处理缺失值,如果处理不当的话,在这些有缺失值特征基础上生成的衍生特征,效果可能适得其反。所以尽量别在利用有缺失值的特征生成衍生特征之间,填充缺失值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值