Hadoop-MapReduce之WordCount的实现

最新推荐文章于 2020-09-15 19:56:51 发布

原创最新推荐文章于 2020-09-15 19:56:51 发布 · 652 阅读

0 ·

CC 4.0 BY-SA版权

欢迎转载，注明作者和出处就好！如果有任何问题或文章存在明显的谬误，请留言说明原因谢谢，我也可以知道原因，不断进步！

文章标签：

#mapreduce #wordcount

【大数据】➣ Hadoop 专栏收录该内容

30 篇文章

订阅专栏

本文介绍了使用MapReduce实现WordCount的基本原理与步骤。详细解释了如何通过map和reduce两个阶段来统计文本文件中单词出现的频率，并记录了一个常见的配置错误及其解决方法。

代码片段： longsl / Mapreduce的wordcount计数器实现

这里对wordcount程序做一些补充笔记

wordcount计数逻辑简单概述：

从文件夹中读取文本文件，即源数据
计数分为map阶段和reduce两阶段实现，map阶段将单词做分割，并将每个单词打上标记—><key:word,value:1>的形式.
在reduce阶段，将key值相同的word做一个合并，key:hello, values:{1,1,1,1,1,1.....}并统计values中1的总数，经过循环遍历所所有的key，得到各个字母的计数。
最后输出到文件中

bug笔记：
当目标hdfs地址不是配置文件中设置的地址时，

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop:9000/</value>
</property>

会报以下异常：

Exception in thread "main" java.net.ConnectException: Call From elon/192.168.16.1 to hadoop:9001 failed on connection exception: java.net.ConnectException: Connection refused: no further information;