用python编写mapreduce版的wordcount程序

最新推荐文章于 2021-02-20 10:02:19 发布

原创

最新推荐文章于 2021-02-20 10:02:19 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #hadoop #mapreduce

本文分享了作者在实践中整理的，能够正常运行的Python版MapReduce WordCount程序。程序编写需全程在Linux环境下，避免因编码问题导致运行错误。运行时需注意Mapper和Reducer的输出格式，以及使用Hadoop Streaming进行执行。

python版的mapreduce版的wordcount程序网上有很多，但是都或多或少的有问题，运行时基本上都会出错，从而导致本人走了不少弯路。经过本人的探索和实践，整理出了能正常运行的代码，并且附上几点需要注意的地方。

1、代码整个编码阶段必须全过程在linux环境下编写，如果从windows拷贝过去，则会由于字符编码不一致，导致程序不能正常运行。

2、如果运行./mapper.py时报错，可以尝试使用python mapper.py

3、执行命令为：hadoop jar ~/hadoop-2.3.0/hadoop/toolsb/hadoop-streaming-2.3.0.jar -mapper mapper.py -reducer reducer.py -input /input/data.txt -output /output/o1 -file mapper.py -file reducer.py

4、map和red

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

keepreder

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用Python编写MapReduce的WordCount实例程序

dushenzhi的专栏

07-15

3860

条件，假设hadoop环境和python环境已经安装好，且hadoop已正常启动 Hadoop Streaming为python的语言提供了编写MapReduce程序的map和reduce的方法，下面介绍如何用Python编写一个WordCount实例程序。 map过程的python源文件wc_map.py:#!/usr/bin/env python import sys for line

hadoop中使用Python语言实现wordcount功能

u010199356的博客

02-18

1986

run.sh HADOOP_CMD=&quot;/usr/local/src/hadoop-2.6.5/bin/hadoop&quot; STREAM_JAR_PATH=&quot;/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar&quot; INPUT_FILE_PATH_1=&quot;/The_Man_of_Prop

参与评论您还未登录，请先登录后发表或查看评论

使用python实现mapreduce（wordcount）.doc

07-31

Python实现MapReduce的WordCount（hadoop平台）在进行大数据处理时，JAVA程序用的较多，但是，想要把深度学习算法用到MapReduce中，Python是深度学习和数据挖掘处理数据较为容易的语言，所以基于以上考虑，本文介绍了使用python实现MapReduce中的WordCount实验

理解MapReduce计算构架

WTF0001的博客

05-10

268

用Python编写WordCount程序任务程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔编写map函数，reduce函数 ...

hadooppython编程_Hadoop札记：使用Python编写wordcount程序

weixin_39846089的博客

12-02

245

尝试着用3台虚拟机搭建了伪分布式系统，完整的搭建步骤等熟悉了整个分布式框架之后再写，今天写一下用python写wordcount程序(MapReduce任务)的具体步骤。MapReduce任务以来HDFS存储和Yarn资源调度，所以执行MapReduce之前要先启动HDFS和Yarn。我们都知道MapReduce分Map阶段和Reduce阶段，这就需要我们自己写Map阶段的处理方法和Reduce...

使用python实现MapReduce的wordcount实例

lpty的博客

01-14

8636

Hadopp的基本框架是用java实现的，而各类书籍基本也是以java为例实现mapreduce，但笔者日常工作都是用python，故此找了一些资料来用python实现mapreduce实例。一、环境 1、Hadoop-2.7.3完全分布式搭建（） 2、python3.5 二、基本思想介绍使用python实现mapreduce调用的是Hadoop Stream，主要利用STDIN(标

python MapReduce的wordcount

09-30

在本篇文章中，我们将深入探讨如何使用 Python 实现一个简单的 MapReduce WordCount 应用。 #### 二、MapReduce 基本思想 MapReduce 的工作原理依赖于将大数据集分割成多个小块，然后将这些小块并行地处理。具体来...

用python写wordcount

pupoqian3720的博客

08-05

6348

hadoop是建立在MapReduce机制之上，其中wordcount是hadoop最典型的一个实例，然而众所周知，hadoop的源码是java，并且大多数的hadoop代码都是基于java搭建起来，那如何利用python实现wordcount，这将是本篇博客主要想完成的功能，并将写好的程序放入hadoop集群上跑新建mapper.py #-*- encoding=UTF-8 -*-...

理解MapReduce

dianshuo4558的博客

05-10

195

1.用Python编写WordCount程序并提交任务程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔编写map函数，reduce函数 #！/usr/...

用python写WordCount的MapReduce代码

爱问西瓜爱大树的博客

04-01

416

1、完整版：https://www.cnblogs.com/kaituorensheng/p/3826114.html 2、展示如何将代码放到集群跑：https://www.cnblogs.com/liangjf/p/liangjf.html 3、参考：https://blog.youkuaiyun.com/qq_35710240/article/details/79799288 ...

Python3 Wordcount

weixin_30883777的博客

12-20

248

# 定义字符串 context = """The US media reports suggest Robert Mueller's inquiry has taken the first step towards possible criminal charges. According to Reuters news agency, the jury has issued subpoen...

python写mapreduce_Python初次实现MapReduce——WordCount

weixin_39742958的博客

12-09

440

前言Hadoop 本身是用 Java 开发的，所以之前的MapReduce代码小练都是由Java代码编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop 运行。本文用Python语言实现了词频统计功能，最后通过Hadoop Streaming使其运行在Hadoop上。Python写MapReduce代码使用Python写MapReduce的“诀窍”是利用H...

Python开发MapReduce系列（一）WordCount Demo

weixin_34234721的博客

09-17

134

　原创，转发请注明出处。　　MapReduce是hadoop这只大象的核心，Hadoop 中，数据处理核心就是 MapReduce 程序设计模型。一个Map/Reduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统...

Python初次实现MapReduce——WordCount

weixin_30312563的博客

03-22

425

前言 Hadoop 本身是用 Java 开发的，所以之前的MapReduce代码小练都是由Java代码编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop 运行。本文用Python语言实现了词频统计功能，最后通过Hadoop Streaming使其运行在Hadoop上。 Python写MapReduce代码使用Python写MapRedu...

Python实现MapReduce的WordCount实例

ChungChinKei' blog

08-02

1591

目录基本信息尽管Hadoop的基本框架是用java实现的，但hadoop程序不限于java，可以用python、C++及ruby等等。本例实现统计输入文本的单词的频数。操作系统：CentOS7.6 Hadoop版本： Hadoop 3.2.0伪分布式环境 Python版本： Python2.7.5 实例代码 map reduce 参考资料用python写MapReduce函数——以...

python写wordcount_使用Pyspark编写wordcount程序

weixin_39671467的博客

02-20

466

标签：# Word count on manuscript using PySpark# import regex moduleimport re# import add from operator modulefrom operator import add# read input filefile_in = sc.textFile(‘/home/an/Documents/A00_Documen...

python实现Mapreduce的wordcount

qq_41782149的博客

07-31

1687

文章目录介绍Hadoop StreamStreaming 的作用Streaming 的局限Streaming 命令的相关参数Python实现MapReduce的WordCount 介绍 Hadoop作为Apache的基金项目，解决的大数据处理时间长的问题，其中MapReduce并行处理框架作为Hadoop中重要的成员。由于Hadoop的架构实现是由JAVA实现的，所以在进行大数据处理时，JAVA...

python在mapreduce运行Wordcount程序

weixin_33912453的博客

06-06

181

首先脚本文件：　　mapper.py：　　#!/usr/bin/env python 　　import sys 　　for line in sys.stdin: 　 line = line.strip() 　 words = line.split() for word in words: print(word,1) 　　reducer.py：　　　#!...

Python WordCount

CSUZWJ的博客

07-16

327

如何插入一段漂亮的代码片去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的代码片. #!/usr/bin/env python #coding: utf-8 from collections import Counter import re from collections import Counter FILESOURCE = 'title.txt' def getMostC...

使用Python编写MapReduce程序