
hadoop
阿雅Yage
这个作者很懒,什么都没留下…
展开
-
MapReduce全局排序实践(利用Hadoop Streaming配置项)
有两个文本,a.txt和b.txt,目的是想整合两个文本按照第一列(key)的数值全局升序排列 这个全局排序可以在本地通过linux命令进行: [root@master boya]# cat a.txt b.txt | sort -k1 但是输出结果并不是按照数值升序: 这是因为sort -k1默认队第一列的各key按照从左到右逐个比较对应的数字的ASCII码来排序的(字典排序),因此我们需...原创 2019-04-14 14:55:41 · 1706 阅读 · 0 评论 -
MapReduce实现简单join(利用框架排序机制)
有以下两个输入文件a.txt和b.txt,目的是将其按照第一列进行join #!/bin/python import sys for line in sys.stdin: ss = line.strip().split(' ') key = ss[0] value = ss[1] print "%s\t1\t%s" % (key,value) [root@ma...原创 2019-04-30 20:15:41 · 332 阅读 · 0 评论