代码片段: longsl / Mapreduce的wordcount计数器实现
这里对wordcount程序做一些补充笔记
wordcount计数逻辑简单概述:
- 从文件夹中读取文本文件,即源数据
- 计数分为map阶段和reduce两阶段实现,map阶段将单词做分割,并将每个单词打上标记—>
<key:word,value:1>的形式. - 在reduce阶段,将key值相同的word做一个合并,
key:hello, values:{1,1,1,1,1,1.....}并统计values中1的总数,经过循环遍历所所有的key,得到各个字母的计数。 - 最后输出到文件中
bug笔记:
当目标hdfs地址不是配置文件中设置的地址时,
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop:9000/</value>
</property>
会报以下异常:
Exception in thread "main" java.net.ConnectException: Call From elon/192.168.16.1 to hadoop:9001 failed on connection exception: java.net.ConnectException: Connection refused: no further information;
本文介绍了使用MapReduce实现WordCount的基本原理与步骤。详细解释了如何通过map和reduce两个阶段来统计文本文件中单词出现的频率,并记录了一个常见的配置错误及其解决方法。
463

被折叠的 条评论
为什么被折叠?



