第五章 缺失值处理--去除缺失值

该博客介绍了如何运用开源ETL工具Kettle去除文本文件revenue.txt中的缺失值。首先,创建转换并配置文本文件输入控件,将分隔符设置为制表符,并忽略头部。接着,定义字段名称和数据类型。然后,通过字段选择控件移除Field2字段,并使用过滤记录控件进行筛选。最后,配置Excel输出控件,运行转换并将处理后的数据保存到file.xls中。

通过Kettle工具,去除原始数据集revenue.txt中的缺失值。

打开Kettle工具,创建转换

配置文本文件输入控件 

在清除分隔符处的默认分隔符“;”,单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框

 

 根据文件revenue.txt的内容添加对应的字段名称,并指定数据类型 

 

配置字段选择控件 

双击“字段选择”控件

 移除Field2字段

配置过滤记录控件

 

 配置Excel输出控件 

 

运行转换缺失值处理 

查看“Excel输出”控件输出的文件file.xls

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值