用python编写mapreduce版的wordcount程序

本文分享了作者在实践中整理的,能够正常运行的Python版MapReduce WordCount程序。程序编写需全程在Linux环境下,避免因编码问题导致运行错误。运行时需注意Mapper和Reducer的输出格式,以及使用Hadoop Streaming进行执行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        python版的mapreduce版的wordcount程序网上有很多,但是都或多或少的有问题,运行时基本上都会出错,从而导致本人走了不少弯路。经过本人的探索和实践,整理出了能正常运行的代码,并且附上几点需要注意的地方。

1、代码整个编码阶段必须全过程在linux环境下编写,如果从windows拷贝过去,则会由于字符编码不一致,导致程序不能正常运行。

2、如果运行./mapper.py时报错,可以尝试使用python mapper.py

3、执行命令为:hadoop jar ~/hadoop-2.3.0/hadoop/toolsb/hadoop-streaming-2.3.0.jar  -mapper mapper.py  -reducer reducer.py -input /input/data.txt -output /output/o1 -file mapper.py  -file reducer.py

4、map和redu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值