hive数据表清洗

hive数据表的数据清洗,hive中的查询都是基于map-reduce,一般向hive中导入数据的方式主要有四种:1 将本地的文件内容导入到hive中,2:将HDFS系统中的文件导入到hive表中,3:从别的表中查询出数据导入到表中。今天分享一下用map-reduce做数据清理并且将HDFS的文件导入到hive表中的操作,首先我所统计的信息中的字段user_id和subject_id在hive表中是明显错误的,subject_id是类似于““22000000”,user_id是类似于“30”这样的,我们获得字段信息是在日志信息中用tab来分割提取的,由于日志分割的错误,我们很可能得到错误的信息存到hive表中。我们处理的最开始的日志是ct_show日志,这个日志包含了很多信息,每一个日志有自己的唯一ssid,我们根据这个ssid来关联两个小时内的其他动作的log文件,比如说是click或是download,然后统计信息,存到我们的hive的表中。我们的代码是用sh脚本运行,在sh脚本中嵌入了运行map-reduce的jar包。我们在java代码里面做了一些条件过滤,然后用maven来clean和install一下,来生成jar包,放到sh脚本的指定目录下面进行执行。最后就静静的等着map和reduce了。我的方法就是,不做清洗,重新再代码里写过滤条件,然后在重新导入一遍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值