25、Hadoop数据处理：从脚本测试到Crunch框架应用

Hadoop数据处理：从脚本到Crunch框架应用

异步汪仔

于 2025-08-04 16:17:58 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：探索Hadoop 2的无限可能文章标签： Hadoop 数据处理 TF-IDF

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/150106684

探索Hadoop 2的无限可能专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Hadoop数据处理：从脚本测试到Crunch框架应用

1. 脚本测试与TF - IDF计算

1.1 脚本测试

可以通过命令行和Hadoop流两种方式对脚本进行测试：
- 命令行测试 ：

$ cat /tmp/tf-out.tsv  |  python map-df.py  | python reduce-df.py > /tmp/df-out.tsv

Hadoop流测试 ：

/usr/bin/hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D map.output.key.field.separator=\t \
-D stream.num.map.output.key.fields=3 \
-D mapreduce.output.key.comparator.class=\
org.apache.hadoop.mapreduce.lib.KeyFieldBasedComparator \
-D mapreduce.text.key.comparator.options=-k1 \
-input /tmp/tf-out.tsv/part-00000 \
-output /tmp/df-out.tsv \
-mapper org.apache.hadoop.mapred.l