
Hadoop
Gerry_RedBean
拥抱明天,做最好的自己......
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce前N个热度统计(TopN)
在Reduce阶段进行排序的时候,对每个相同的Key进行分组,然后缓存在TreeMap中,他可以自动按照对象的比较器进行排序, 最终输出前N个热门访问页面. 1. 自定义序列化数据类型,并设定比较器 package com.gerry.bigdata.mapreduce.top3; public class PageCount implements Comparable<PageCo...原创 2019-06-25 05:33:32 · 1854 阅读 · 0 评论 -
MapReduce的自定义分区(按照省份)
1. 自定义分区逻辑(例如按照省份) package com.gerry.bigdata.mapreduce.flowpartion; import java.util.HashMap; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; import com.gerry.bi...原创 2019-06-25 05:21:15 · 576 阅读 · 0 评论 -
MapReduce(全局排序)
主要分类两次MapReduce, 最后一次MapReduce 的ReduceTask需要设置为1个 1. 自定义序列化数据类型 package com.gerry.bigdata.mapreduce.pagecountsort; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; ...原创 2019-06-25 05:26:22 · 498 阅读 · 0 评论