5.2.1缺失值清洗策略

5.2.2去除缺失值
创建转换

配置文本文件输入,获取字段:Name,Sex,Pay,Area

配置过滤记录组件,添加过滤条件

查看效果

运行成功

5.2.3填充缺失值
创建转换

配置过滤记录控件

配置合并记录控件,选择匹配关键字:userid

将hours_per_week的null值替换为44

将字段workclass的null值替换为Private

配置字段选择控件,移除flagfield字段

查看结果:已经将null值填充完毕

该博客介绍了数据清洗过程中针对缺失值的处理方法,包括去除缺失值和填充缺失值。在去除缺失值的转换中,通过配置文本文件输入和过滤记录组件来筛选数据,并观察运行效果。而在填充缺失值的转换中,使用合并记录控件和字段选择控件,将特定字段的null值替换为预设值,最后成功完成了数据清洗。
1121

被折叠的 条评论
为什么被折叠?



