hadoop 流streaming跑python程序

最新推荐文章于 2025-08-13 22:04:55 发布

weixin_33682719

最新推荐文章于 2025-08-13 22:04:55 发布

阅读量137

点赞数

文章标签：大数据 python

本文介绍如何利用Hadoop的streaming功能处理大规模数据集，通过提供具体命令和示例，展示了如何将数据文件映射到reduce阶段，实现高效的数据处理流程。详细解释了在Hadoop集群中操作数据文件的步骤，包括使用mapper.py和reduce.py脚本，并提供了集群内文件的实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先放上命令：

hadoop jar /usr/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -mapper mapper.py -file mapper.py -reduce reduce.py -file reduce.py -file params.txt -file params2.txt -input /data/* -output /output

其中output不存在才可以。

mapper.py的输出直接传给reduce.py

比如在hadoop的集群中，/data/目录下有如下几个文件：

[root@master program]# hadoop fs -ls /data/
Found 10 items
-rw-r--r--   3 root supergroup      35596 2015-06-18 16:45 /data/cars-00
-rw-r--r--   3 root supergroup      35592 2015-06-18 16:45 /data/cars-01
-rw-r--r--   3 root supergroup      35588 2015-06-18 16:45 /data/cars-02
-rw-r--r--   3 root supergroup      35584 2015-06-18 16:45 /data/cars-03
-rw-r--r--   3 root supergroup      35584 2015-06-18 16:45 /data/cars-04
-rw-r--r--   3 root supergroup      35596 2015-06-18 16:45 /data/cars-05
-rw-r--r--   3 root supergroup      35588 2015-06-18 16:45 /data/cars-06
-rw-r--r--   3 root supergroup      35586 2015-06-18 16:45 /data/cars-07
-rw-r--r--   3 root supergroup      35584 2015-06-18 16:45 /data/cars-08
-rw-r--r--   3 root supergroup      35574 2015-06-18 16:45 /data/cars-09