Spark wordcount - Python, Scala, Java

最新推荐文章于 2022-04-12 13:06:00 发布

bitbyteworld

最新推荐文章于 2022-04-12 13:06:00 发布

阅读量491

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark学习文章标签： spark scala python java

本文链接：https://blog.youkuaiyun.com/bitbyteworld/article/details/53612000

Spark学习专栏收录该内容

6 篇文章

订阅专栏

本文介绍了如何使用Spark在Python、Scala和Java三种语言中实现经典的分布式单词计数任务。通过对文本文件进行处理，将其拆分为单词并进行计数，最终得到每个单词出现的频率。

基于Spark实现的Python, Scala, Java三个版本的、经典的分布式单词计数代码。

1. Scala

val input = sc.textFile("hdfs://...")
val words = input.flatMap(x => x.split(" "))
val result = words.map(x => (x, 1)).reduceByKey((x, y) => x + y).persist()

println(result.collect().mkString("\n")) //collect()在数据量比较小、单机内存能装载下时可以使用

2.Python

rdd = sc.textFile("s3://...")
words = rdd.flatMap(lambda x: x.split(" "))
result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)

3.Java

JavaRDD<String> input = sc.textFile("s3://...")
JavaRDD<String> words = rdd.flatMap(new FlatMapFunction<String, String>() {
public Iterable<String> call(String x) { return Arrays.asList(x.split(" ")); }
});
JavaPairRDD<String, Integer> result = words.mapToPair(
new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String x) { return new Tuple2(x, 1); }
}).reduceByKey(
new Function2<Integer, Integer, Integer>() {
public Integer call(Integer a, Integer b) { return a + b; }
});