mapreduce
tianjun2012
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce系列(2)shuffle流程及Combiner
一、shuffle流程原理二、Combiner的使用package wc;import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException; /** * combiner可以在原创 2017-03-17 15:28:29 · 748 阅读 · 0 评论 -
mapreduce系列(9)--自定义OutputFormat
111111原创 2017-03-20 17:28:10 · 455 阅读 · 0 评论 -
mapreduce系列(8)--自定义GroupingComparator
一、概述GroupingComparator是在reduce阶段分组来使用的,由于reduce阶段,如果key相同的一组,只取第一个key作为key,迭代所有的values。 如果reduce的key是自定义的bean,我们只需要bean里面的摸个属性相同就认为这样的key是相同的,这是我们就需要之定义GroupCoparator来“欺骗”reduce了。 我们需要理清楚的还有map阶段你的几个自定原创 2017-03-20 15:59:21 · 2777 阅读 · 0 评论 -
mapreduce系列(7)--查找共同好友
一、概述A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J求出哪些人两两之间有共同好友,及他俩的共同好友都是谁 比如:a-b : c ,e原创 2017-03-20 14:32:44 · 5420 阅读 · 2 评论 -
maprecuce系列(5)——map端join算法实现
一、概述在(4)中我们很快的实现了join的功能,但是在实际的生产中,会有一个严重的问题,由于数据量比较大,最后的分区比如都根据hashpartion来处理,就会导致数据的倾斜,有的reduceTask就会工作量太大,有的工作量就会太小,其实,我们可以看到,maptask阶段的任务分配其实还是比较均匀的,所以如果能在map阶段,把所有的工作都给处理掉就好了,这样我们就会想到缓存,数据量不大的一张表缓原创 2017-03-19 22:37:23 · 619 阅读 · 0 评论 -
mapreduce系列(6)---倒排索引的建立
一、概述如我们有三个文件: a.txt,b.txt,c.txttian jun li lei han meimei li lei han meimeili lei han meimei tian jun gege jiejie tian jun gege jiejiegege jiejie han meimei tian jun han meimei tian jun统计出没个词在每篇文章中出现的原创 2017-03-20 14:21:22 · 728 阅读 · 0 评论 -
maprecuce系列(4)——reduce端join算法实现
一、需求1、如下订单表:id、date、pid、amount1001,20160710,P0001,2 1002,20160710,P0001,3 1002,20170710,P0002,3 1001,20160710,P0001,2 1002,20140710,P0003,3 1003,20150710,P0002,32、如下商品信息表:id,panme,category_id,priceP000原创 2017-03-19 22:30:19 · 692 阅读 · 0 评论 -
mapreduce系列(3)----在window端远程提交mr程序运行
之前讲到windows上跑本地版的mapreduce程序,毫无问题, 但是更进一步,我现在想直接把我的idea上的程序运行在linunx集群上,这样,我的本地就相当于是mapreduce的一个客户端了。 沿着这个思路,我们直接把conf配置如下设置:conf.set("mapreduce.framework.name","yarn"); conf.set("yarn.resourcemanage原创 2017-03-17 20:10:37 · 1732 阅读 · 0 评论 -
mapreduce系列(1)---入门案例深入分析以及切片源码简析
自定义一个mapreduce程序: FlowBean.java(实现hadoop的序列化)package lltj;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;/** * 自定义bean原创 2017-03-16 21:31:53 · 1566 阅读 · 0 评论 -
mapreduce系列(10)--自定义Inputformat
123原创 2017-03-20 19:42:46 · 1280 阅读 · 1 评论
分享