缺失值的产生机制

最新推荐文章于 2025-04-13 00:09:25 发布

转载最新推荐文章于 2025-04-13 00:09:25 发布 · 7.9k 阅读

·

7

·

数据挖掘专栏收录该内容

17 篇文章

订阅专栏

缺失值可分为两类：一类是这个值实际存在但是没有被观测到，例如客户的性别；另一类是这个值实际就不存在，例如，在调查顾客购买的洗发液品牌时，如果某位顾客根本没有购买任何洗发液，那么这位顾客购买的洗发液品牌缺失。如何处理缺失值是一个很复杂的课题，有兴趣的读者可以参阅这方面的专著。

缺失值的产生有三种机制：

1.完全随机缺失（MissingCompletelyatRandom）

某个变量是否缺失与它自身的值无关，也与其他任何变量的值无关。例如，由于测量设备出故障导致某些值缺失。

2.随机缺失（MissingatRandom）

在控制了其他变量已观测到的值后，某个变量是否缺失与它自身的值无关。例如，人们是否透露收入可能与性别、教育程度、职业等因素有关系。

如果这些因素都观测到了，而且尽管收入缺失的比例在不同性别、教育程度、职业的人群之间有差异，但是在每一类人群内收入是否缺失与收入本身的值无关，那么收入就是随机缺失的。

3.非随机缺失（MissingNotatRandom）

即使控制了其他变量已观测到的值，某个变量是否缺失仍然与它自身的值有关。例如，在控制了性别、教育程度、职业等已观测因素之后，如果收入是否缺失还依赖于收入本身的值，那么收入就是非随机缺失的。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。