本文参考了多篇优快云、知乎以及百度的文章,如果侵犯了您的权益,请及时联系,这是自己写的第一篇博客,有很多不足之处,请原谅。
文章将常见的自己能理解的一些缺失值的处理方法以及方法的优缺点做了简单介绍。其中,多重插补、EM算法对缺失值的处理尚未掌握,因此并未放上来。
一、数值缺失机制
1.完全随机缺失(MCAR):缺失数据与该变量的真实值无关,与其他变量的数值也无关。
举例:一位老师抱着批改完的卷子走在路上,不小心摔倒丢失了几张卷子,因此有几位同学没有成绩。这种成绩缺失不是因为成绩这个变量本身高或低而丢失的,而是随机丢失的;也与性别等无关,不会出现男生卷子丢失概率高,女生卷子丢失概率低的问题。
2.条件随机缺失(MAR):缺失数据与其他变量有关。
举例:我们的目标是要统计一个班学生的基本信息,包括名字、性别、身高、体重等。而此时如果某一学生的体重这一变量缺失,这一事件最可能发生在哪些人身上呢?一般来说,是女生。因此体重缺失与已知变量性别相关,这就叫做条件随机缺失。
3.非随机缺失(NNAR):缺失数据依赖于该变量本身。
举例:通常在收集数据时收入一栏很容易缺失,发生这种情况的原因可能是填写人收入过高或过低。因此收入缺失与填写人本身收入有