25、Hadoop 数据处理：从脚本测试到 Apache Crunch 实践

raspberrypi5

于 2025-08-20 11:38:03 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：探索Hadoop 2：从入门到精通文章标签： Hadoop TF-IDF Apache Crunch

本文链接：https://blog.youkuaiyun.com/raspberrypi5/article/details/150751665

探索Hadoop 2：从入门到精通专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Hadoop 数据处理：从脚本测试到 Apache Crunch 实践

1. 脚本测试与 TF - IDF 计算

在数据处理过程中，我们可以通过命令行或 Hadoop 流来测试脚本。
- 命令行测试 ：

$ cat /tmp/tf-out.tsv  |  python map-df.py  | python reduce-df.py > /tmp/df-out.tsv

此命令将 /tmp/tf-out.tsv 文件的内容通过 map-df.py 和 reduce-df.py 脚本处理后，输出到 /tmp/df-out.tsv 文件。
- Hadoop 流测试 ：

/usr/bin/hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D map.output.key.field.separator=\t \
-D stream.num.map.output.key.fields=3 \
-D mapreduce.output.key.comparator.class=\
org.apache.hadoop.mapreduce.lib.KeyFieldBasedComparator \
-D mapred