
mapreduce
文章平均质量分 68
Joy CR
欢迎关注我的公众号: 小秋的博客
https://blog.youkuaiyun.com/xiaoqiu_cr
https://github.com/crr121
https://segmentfault.com/u/chenrong_flying
联系邮箱:rongchen633@gmail.com
展开
-
利用mapper实现表的连接
现在有两张表customer和order,需要通过customerid实现customer和order的连接 mapper package com.cr.JoinMap; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apach...原创 2018-08-19 11:23:57 · 1075 阅读 · 0 评论 -
Hadoop二次排序
1、实现要求:对年份按照升序排列,对气温进行降序排列 2、实现步骤 1、定义组合key package com.cr.secondarySort; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOExc原创 2018-01-09 23:49:49 · 261 阅读 · 0 评论 -
Hadoop采样器实现全排序(报错java.io.EOFException)
利用采样器,mapreducer自动将数据按照从大到小的顺序,根据数据分布的概率,自动分区到不同的区域,之前我们是手动设置分区的范围,将数据分区到不同的分区 点击打开链接 下面我们采用Hadoop内置类-全排序分区类进行自动分区 1、mapper类 package com.cr.wordcount; import org.apache.hadoop.io.IntWritable; i原创 2018-01-08 12:43:10 · 1408 阅读 · 1 评论 -
跟踪wordcount计数器的运行信息
1、mapper类 package com.cr.wordcount; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; i原创 2018-01-05 17:27:17 · 307 阅读 · 0 评论 -
运行wordcount的时候显示INFO mapreduce.Job: map 0% reduce 0%
错误提示: [xiaoqiu@s150 /home/xiaoqiu]$ hadoop jar wordcounter.jar com.cr.wordcount.WordcountApp hdfs://s150/user/xiaoqiu/data/wc.txt hdfs://s150/user/xiaoqiu/data/out 18/01/05 09:12:52 INFO client.RMPro原创 2018-01-05 16:02:43 · 6438 阅读 · 8 评论 -
二次排序解析
1、定义组合key package com.cr.com.cr.test; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; public class ComKey implement原创 2018-01-14 17:02:33 · 865 阅读 · 0 评论 -
Hadoop集群运行wordcount jar包出错
出错提示 [xiaoqiu@s151 /home/xiaoqiu]$ hadoop jar HDFSTest.jar com.cr.hdfs.wordcount1.wordcountAPP hdfs: //s150/usr/xiaoqiu/wordcount hdfs://s150/usr/xiaoqiu/wordcount/output Exception in原创 2018-01-02 11:31:17 · 499 阅读 · 0 评论 -
MapReduce进行本地的单词统计
1、处理输入文本为对,继承Mapper方法 package com.cr.hdfs; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Map原创 2017-12-31 11:23:14 · 561 阅读 · 0 评论 -
reduce端的连接实现
背景:现在有两张表:customer、order,他们有个共同的cid,需要通过cid实现两张表的连接,并且通过cid进行分组排序 思路:首先通过mapper从context里面获取到文件切片,从文件切片中得到路径,从而判断是customer.txt,还是order.txt 然后依次读取每行内容,并且为每行数据打上一个标签,0表示customer,1表示order,最后组成一个新的组合ke...原创 2018-08-19 11:23:45 · 317 阅读 · 0 评论