导语
MapReduce作为Hadoop核心编程模型,在Hadoop中,数据处理的核心就是MapReduce程序设计模型。下面就来分享一下MapReduce都有那些值得我们注意的事情。
MapReduce编程模型
Map 和Reduce 的概念是从函数式编程中借鉴而来的,而函数式编程也是现在比较流行的一个话题。整个的MapReduce计算过程其实是被分为Map阶段和Reduce阶段的。也就是映射与缩减两个独立的阶段过程。在Map中进行数据的读取与预处理,然后将预处理结果发送到Reduce中进行有效的合并。
创建Map的代码
在使用MapReduce的过程中,第一个测试示例就是统计一篇文章中每个单词出现的次数。下面就来实现以下
import sys
word_list =[]
for line in sys.stdin:
word_list = line.strip().split('');
if len(word_list)<=0:
continue;
for word in word_list:
w = word.strip();
if len