mapreduce中一些坑

本文记录了一次使用MapReduce对查询PV次数进行排序的过程。在遇到编码问题、输出路径配置错误及输出结果不完整等问题后,通过同事的帮助,最终解决了这些问题并成功输出了正确的结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天写了一个mapreduce程序,功能是根据query的pv次数,对pv进行排序。

但是写了三个小时,却都没有搞定。最后在同事Wuzhen的搞定下,才输出了正确结果。


总结一下原因。

1. 需要对输入进行转码。转码语句为:

String line = new String(value.getBytes(), 0, value.getLength(), "GBK");

2. 输出编码,需要指定。指定语句为:

job.setOutputFormatClass(GbkOutputFormat.class);

3. 注意OutputPath为目录

当时我把输入路径设置如下,但是跑完代码,却发现文件大小总是为0,找了很久原因,才发现在query_sort.txt下面还有一个为part-00000的文件!!!!!!!!!

/user/webrank/luliujie/segmentation/query_sort.txt

4. 上面三个问题解决后。我发现输出只有query,没有pv次数。

这个时候,我发现发现原来,我在reduce的输出key为LongWritable,当把它通过下面语句,转为Text时,输出就正常了。

new Text(key.toString())。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值