大数据hadoop系列：python实现MapReduce 词频统计

最新推荐文章于 2025-10-06 02:15:54 发布

原创

最新推荐文章于 2025-10-06 02:15:54 发布 · 3.4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python实现MapReduce #MapReduce词频统计 #wordCount

map代码：map_t.py

import sys
import re

p = re.compile(r'\w+')
for line in sys.stdin:
    ss = line.strip().split(' ')
    for s in ss:
        if len(p.findall(s)) < 1:
            continue
        s_low = p.findall(s)[0].lower()
        print s_low + ',' + '1'

reduce代码：red_t.py

import sys

cur_word = None
sum = 0
for line in sys.stdin:
    word, val = line.strip().split(',')
    if cur_word == None:
        cur_word = word
    if cur_word != word:
        print '%s\t%s' % (cur_word, sum)
        cur_word = word
        sum = 0
    sum += int(val)
print '%s\t%s' % (cur_word, sum)

测试shell：

cat The_Man_of_Property.txt | python map_t.py |sort -k2|python red_t.py

run.sh

HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"
STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streamin

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

兰波万

关注关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【大数据技术】Spark分布式实现词频统计（hadoop+python+spark）

Python、C++、HTML、Java

02-05

649

本文主要介绍基于hadoop+spark技术，自己编写python代码实现单词词频统计的详细步骤。

python多进程实现MapReduce模型下的文档库词频统计功能

Cachel Wood的博客

12-17

1429

import os import glob import time import jieba from multiprocessing import Process,Manager def Map(path,lis): for pa in path: file = open(pa,'r',encoding='utf-8') text_lis = jieba.lcut(file.read()) file.close() for i i.

1 条评论您还未登录，请先登录后发表或查看评论

python 实现mapreduce词频统计

09-17

python实现mapreduce词频统计执行方式：打开cmd命令，cd到代码所在文件夹，输入python wordcout_map.py > words.txt | sort | python wordcout_reduce.py执行

Python词频统计

m0_50854779的博客

12-05

1387

超简单词频统计

Hadoop与Python：PySpark大数据处理指南

最新发布

小程序开发

10-06

941

数据清洗是关键：原始数据中可能有大量无效值，必须先过滤，否则会影响分析结果；使用Parquet格式：Parquet是列式存储，支持压缩（如Snappy），比CSV节省存储空间且查询更快；合理分配资源：通过和调整 executor 的资源，避免内存不足或资源浪费。PySpark是Python与Spark的结合，让Python开发者能处理TB级以上的大数据；核心数据结构：RDD（底层基础）、DataFrame（结构化数据首选）；实战流程：数据读取→清洗→转换→分析→保存；性能优化：避免。

词频统计（基于hadoop集群，python实现）

07-11

基于hadoop集群，用python写mapReduce实现单词统计，文件里包含python代码和操作步骤，适合初学者学习，我亲自测试，在ubuntu系统上，搭建的hadoop集群，能够运行出结果。

python词频统计完整步骤_Python使用Hadoop进行词频统计

weixin_39964590的博客

11-24

883

今天，我们利用python编写一个MapReduce程序，程序的目的还是百年不变的计算单词个数，也就是WordCunt。所谓mapreduce其实就是先分散计算后综合处理计算结果。首先我们来看一下map部分的代码。#!/usr/bin/env pythonimport sys# input comes from STDIN (standard input)for line in sys.stdin...

python简单实现hadoop map reduce统计功能

yangguo_2011的专栏

10-11

998

#!/usr/bin/env python def hadoopMap(fd): lines={} for line in fd: if lines.has_key(line): lines[line]+=1 else: lines[line]=1 return lines

大数据实训（三）——MapReduce编程实例：词频统计

weixin_74137248的博客

05-24

1941

http://t.csdnimg.cn/OySPS

Python实现Hadoop MapReduce词频统计实战

本文所涉及的项目代码基于Hadoop 2.5.2版本，完整展示了如何利用原生Python实现MapReduce任务，而无需依赖Java或其他编译型语言，极大降低了学习和开发门槛。该方法的核心原理是通过Hadoop Streaming机制，将Python...

性能监控的艺术：深入分析MapReduce词频统计作业

本文深入探讨了MapReduce框架的原理与架构，并以词频统计作业为例，详细阐述了MapReduce的工作流程、关键概念及性能监控的重要性。文章进一步介绍了如何搭建监控系统、跟踪关键性能指标，并提供了在异常情况下进行...

hadoop-python——统计单词出现的频率

pat_datamine的专栏

01-07

1978

map函数如下 import sys # 调用标准输入流 for line in sys.stdin: # 读取文本内容 line = line.strip() # 对文本内容分词，形成一个列表 words = line.split() # 读取列表中每一个元素的值 for word in words:

Hadoop词频统计（完整版）

01-05

完整的词频统计MapReduce版本。基于Hadoop2.2.0，包含一个十万单词左右的测试文件。请参照 http://blog.youkuaiyun.com/zythy/article/details/17888439 获取详细解说。

python实现单词计数的mapreduce

ukakasu的博客

08-08

2471

map函数 import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words : print "%s\t%s" % (word , 1) reduce函数 import sys current_word=None current_

使用Python实现Map Reduce程序

weixin_34185364的博客

10-23

164

使用Python实现Map Reduce程序起因想处理一些较大的文件，单机运行效率太低，多线程也达不到要求，最终采用了集群的处理方式。详细的讨论可以在v2ex上看一下。步骤 MapReduce程序要分为两部分，即Map和Reduce部分，所以Python代码也是要分为两部分程序运行 hadoop jar contrib/streaming/hadoop-streaming-1.1.2...

python中使用mapreduce

linken01的博客

02-05

1441

使用python中的mrjob写mapreduce。

Python初次实现MapReduce——WordCount

m0_59485658的博客

01-10

721

Hadoop 本身是用 Java 开发的，所以之前的MapReduce代码小练都是由Java代码编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop 运行。本文用Python语言实现了词频统计功能，最后通过Hadoop Streaming使其运行在Hadoop上。

MapReduce01——词频统计

yeyu_xing的博客

02-16

1513

1、有words.txt文件内容如下，其中以制表符分割 Python Java Java C Python C Python 2、分析 map阶段 1、进行非空和长度等于0的判断，确保读取到每行数据没有问题 2、mapreduce会一行一行地读取文件，读取后将其以制表符分割，就能得到一个字符串数组 3、遍历字符串数组，将其以<key, value>的形式输出，value为1。输出后mapreduce会将相同的key合并在一起 reduce阶段 1、因为map阶段将相同的key聚合在一起，所以键

Python 玩转大数据 Mapreduce开发 wordcount

weixin_41734687的博客

10-27

704

一介绍 MapReduce 是一种分布式编程模型，用于处理大规模的数据。用户主要通过指定一个 map 函数和一个 reduce 函数来处理一个基于key/value pair的数据集合，输出中间的基于key/value pair的数据集合；然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。使用python写MapReduce的“诀窍”是利用Hadoop流的A...