Wordcount 号称Hadoop中的HelloWord,花时间好好研究了以下程序的细节,这研究之前必须搞懂MapReduce工作原理,网上有很多讲解。其实MapReduce就是个分治的思想,将文件分在不同的从节点上进行处理(Map),然后排序合并,最后进行汇总的过程(Reduce)。 MapReduce的总体流程如下: 研究代码的过程中Reduce程序段不太懂,查看了Hadoop官网,官网的解释还是最好的,以后对于不会的知识要学会在官网找答案。 下面送上官网链接: