《大数据机器学习实践探索》 ---- 特征工程：基于spark 的缺失值处理

shiter

已于 2022-01-26 17:15:55 修改

阅读量683

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据机器学习实践探索基于大数据的机器学习原理与最佳实践文章标签：特征工程 spark 缺失值填充

于 2021-07-24 20:22:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangyaninglm/article/details/119063339

大数据机器学习实践探索同时被 2 个专栏收录

130 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

基于大数据的机器学习原理与最佳实践

84 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

缺失值的定义
- python 中的空值
- scala 中的空值
缺失值填充的目的
spark 缺失值填充
缺失值填充的处理实战
参考文献

缺失值的定义

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。

Little和Rubin(1987)把数据缺失的机制分为三类：

1）完全随机缺失(missing completely at random, MCAR)：所缺失的数据是完全随机的，缺失发生的概率既与已观察到的数据无关，也与未观察到的数据无关。这是一种比较理想的情况。

2）随机缺失(missing at random, MAR)：数据的缺失不是完全随机的。缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。这是一个比较严重的问题，在这种情况下，我们需要进一步检查数据收集过程，并尝试了解数据为什么丢失。例如，如果在一项问卷调查中，大多数人没有回答某个问题，他们为什么这么做，是问题不清楚吗？

3）不可忽略的缺失(non-ignorable missing ,NIM)，亦称为非随机缺失(not missing at random, NMAR)，也有研究者将其称为MNAR(missing not at random)。缺失数据不仅依赖于其它变量，又依赖于变量本身，这种缺失即为不可忽略的缺失。

本文针对spark 机器学习过程中，针对数据框，dataframe dataset 中出现的缺失值处理方案，进行总结。

python 中的空值

内置常量 None
NoneType 类型的唯一值。 None 经常用于表示缺少值，当因为默认参数未传递给函数时。给 None 赋值是非

了解本专栏

超级会员免费看

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。