
Hadoop
文章平均质量分 79
石头_奋斗
这个作者很懒,什么都没留下…
展开
-
Google MapReduce:超大机群上的简单数据处理(转载)
MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个Map函数处理一个基于 key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。现实世界中有很多满足上述处理模型的例子, 本论文将详细描述这个模型。MapReduce架构转载 2014-11-05 19:26:26 · 1204 阅读 · 0 评论 -
Map-Reduce的逻辑过程
Reference:1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+002转载 2014-11-10 14:36:15 · 1063 阅读 · 0 评论 -
浅谈MapRuduce的几种Join方式
Reduce Side Joins(Reference:http://codingjunkie.net/mapreduce-reduce-joins/)。在所有的join pattern算法中,reduce-side join时最容易实现的。之所以reduce-side joins这么简单直接,是因为Hadoop会默认将具有相同键(Key)的pair发送到同一个Reducer去执行redu翻译 2014-12-11 20:42:50 · 2155 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2014-12-12 15:34:10 · 779 阅读 · 0 评论