
MapReduce编程(python)
文章平均质量分 72
pat_datamine
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop-python——Wordcount程序:python实现详解
mapper.py函数如下: import sys # 调用标准输入流 for line in sys.stdin: # 读取文本内容 line = line.strip() # 对文本内容分词,形成一个列表 words = line.split() # 读取列表中每一个元素的值 for word in wor原创 2015-01-07 14:20:25 · 3062 阅读 · 0 评论 -
hadoop-python——实现表与表的左连接
map函数如下: import sys for line in sys.stdin: line = line.strip() words = line.split() print '%s %s 1' % (words[0],words[1] ) print '%s %s 2' % (words[1],words[0]原创 2015-01-07 14:50:26 · 1141 阅读 · 0 评论 -
hadoop-python——统计单词出现的频率
map函数如下 import sys # 调用标准输入流 for line in sys.stdin: # 读取文本内容 line = line.strip() # 对文本内容分词,形成一个列表 words = line.split() # 读取列表中每一个元素的值 for word in words:原创 2015-01-07 14:36:50 · 1966 阅读 · 0 评论 -
hadoop-python:计算平均值分布式程序编写
程序: mapper.py import sys for line in sys.stdin: line = line.strip() words = line.split() print '%s\t%s' % (words[0],words[1]) reducer.py import sys count=0 i=0 sum=0 fo原创 2015-01-19 21:07:27 · 1000 阅读 · 0 评论