python streaming 实现某个字段排序

最新推荐文章于 2024-05-10 22:51:01 发布

数据挖掘者

最新推荐文章于 2024-05-10 22:51:01 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘 python

本文链接：https://blog.youkuaiyun.com/wodedipang_/article/details/80979527

python 同时被 2 个专栏收录

12 篇文章

订阅专栏

数据挖掘

6 篇文章

订阅专栏

本文介绍了如何在Hadoop Streaming中使用Python实现特定字段的排序。默认情况下，Streaming以制表符分隔key和value，但可以使用参数调整分隔符和字段位置。通过示例展示了mapper和reducer的Python脚本，以及运行命令和排序后的输出结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，hadoop streaming默认情况

1，在hadoop streaming的默认情况下，是以\t作为分隔符的，标准输入时，每行的第一个\t之前的内容作为key，第一个\t之后的内容作为value。注意，如果一个\t字符都没有，那么整行作为key。

2，streaming的一些参数如下：

-D stream.map.output.field.separator ：设置map输出中key和value的分隔符
      -D stream.num.map.output.key.fields ：设置map程序分隔符的位置，该位置之前的部分作为key，之后的部分作为value
      -D map.output.key.field.separator : 设置map输出中key内部的分割符
-D num.key.fields.for.partition : 指定分桶时，key按照分隔符切割后，其中用于分桶key所占的列数（配合-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 使用）
      -D stream.reduce.output.field.separator：设置reduce输出中key和value的分隔符

-D stream.num.reduce.output.key.fields：设置reduce程序分隔符的位置

二，python streaming 实现某个字段的排序

1，输入数据: cat data.txt (中间是tab键）

11 2
11 3
11 4 1
11 1

11 12 22

2，streaming程序如下：

vim sorted.sh

#!/bin/bash

export CURRENT=/home/chunhe.liao/hadoop_streaming/sort

/usr/local/hadoop-2.6.3/bin/hadoop jar /usr/local/hadoop-2.6.3/share/hadoop/tools/lib/hadoop-streaming-2.6.3.jar \
-D stream.map.output.field.separator='\t' \
-D stream.num.map.output.key.fields=3 \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D mapreduce.partition.keycomparator.options=-k3,3nr \     # 按照第三列逆序排列,可以根据想要的第几段来选择。
-input "/user/test/inputdata/datas3/data.txt" \
-output "/user/test/streaming/sorted_20180711" \
-mapper "python mapper.py" \
-reducer "python reducer.py" \
-file "$CURRENT/mapper.py" \
-file "$CURRENT/reducer.py"

(2) mapper.py

# -*- coding: utf-8 -*-
import sys

for line in sys.stdin:
	line = line.strip()
	print('{0}'.format(line))

(3) reducer.py

# -*- coding: utf-8 -*-
import sys

for line in sys.stdin:
	line = line.strip()
	print("{0}".format(line))

运行命令：

bash sorted.sh

运行结果：hdfs dfs -cat /user/test/streaming/sorted_20180711/part-00000

11 12 22
11 3
11 2
11 4 1
11 1