
Hadoop
张博208
知识搬运工
展开
-
MapReduce:详解Shuffle(copy,sort,merge)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2017-03-17 16:26:13 · 282 阅读 · 0 评论 -
WordCount运行详解
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job转载 2017-03-17 16:58:19 · 711 阅读 · 0 评论 -
第一个MapReduce案例集群模式&本地模式
第一个MapReduce案例集群模式&Linux本地模式 记录一下自己在开发MapReduce程序的过程。 思考点是:如何下手,怎样开发。1.对于平台的要求:环境已搭建完毕,且测试通过。 我自己平台是:Centos6.4 +jdk1.7+hadoop2.5.1 都是64位的我这里写的是非常简单的一种:创建一个Java工程,导入jar包转载 2017-03-18 18:44:01 · 739 阅读 · 1 评论