python版的mapreduce版的wordcount程序网上有很多,但是都或多或少的有问题,运行时基本上都会出错,从而导致本人走了不少弯路。经过本人的探索和实践,整理出了能正常运行的代码,并且附上几点需要注意的地方。
1、代码整个编码阶段必须全过程在linux环境下编写,如果从windows拷贝过去,则会由于字符编码不一致,导致程序不能正常运行。
2、如果运行./mapper.py时报错,可以尝试使用python mapper.py
3、执行命令为:hadoop jar ~/hadoop-2.3.0/hadoop/tools
b/hadoop-streaming-2.3.0.jar -mapper mapper.py -reducer reducer.py -input /input/data.txt -output /output/o1 -file mapper.py -file reducer.py
4、map和redu