Python数据清洗--缺失值处理

缺失值的类型

从缺失的分布来说

1.完全随机缺失指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。
2.随机缺失指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
3.完全非随机缺失指的是数据的缺失依赖于不完全变量自身。

从缺失值属性上来说

1.单值缺失:所有的缺失值都是同一属性。
2.任意缺失:缺失值属于不同的属性。
3.另外对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。

缺失值的处理

1.删除:
删除有缺失值的行,或者缺失值特别多的列。
2.填补:它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。
在数据分析中,面对可能是列数比较多的数据集,它有很多特征,因为一个特征的缺失而放弃大量的其他特征值,这种删除是对信息的极大浪费,尤其是行数比较少的情况下,所以产生了以可能值对缺失值进行插补的思想与方法。 对缺失值进行插补时,可以参考如下的插补建议:
(1)完全随机缺失:我们可以选择删除或者是依靠变量自身未缺失值的信息(均值、众数、中位数)进行补全。 完全随机缺失且缺失值比例不大的情况下,删除缺失值不会影响结果的准确性,但会影响精确性。
(2)随机缺失:利用其他的变量估计出缺失值。
(3)非随机缺失:可以考虑用特殊字符进行填充,例如可以直接用一个不及格的分数对缺失成绩进行填充
(4)完全随机缺失且特征值为连续值:按变量不同的分布类型对缺失值进行补。

下面是我做的思维导图

关于如何判断、处理和填充缺失值。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值