python版的mapreduce版的wordcount程序网上有很多,但是都或多或少的有问题,运行时基本上都会出错,从而导致本人走了不少弯路。经过本人的探索和实践,整理出了能正常运行的代码,并且附上几点需要注意的地方。
1、代码整个编码阶段必须全过程在linux环境下编写,如果从windows拷贝过去,则会由于字符编码不一致,导致程序不能正常运行。
2、如果运行./mapper.py时报错,可以尝试使用python mapper.py
3、执行命令为:hadoop jar ~/hadoop-2.3.0/hadoop/tools
b/hadoop-streaming-2.3.0.jar -mapper mapper.py -reducer reducer.py -input /input/data.txt -output /output/o1 -file mapper.py -file reducer.py
4、map和red

本文分享了作者在实践中整理的,能够正常运行的Python版MapReduce WordCount程序。程序编写需全程在Linux环境下,避免因编码问题导致运行错误。运行时需注意Mapper和Reducer的输出格式,以及使用Hadoop Streaming进行执行。
最低0.47元/天 解锁文章
3859

被折叠的 条评论
为什么被折叠?



