Spark primer 之helloworld

最新推荐文章于 2025-11-30 10:40:00 发布

原创最新推荐文章于 2025-11-30 10:40:00 发布 · 303 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

spark-prim 专栏收录该内容

5 篇文章

订阅专栏

本文演示了如何使用Scala和Apache Spark进行单词计数，包括配置Spark上下文、加载文件到RDD、缓存RDD、使用flatMap和map操作对文本进行处理、使用reduceByKey聚合单词计数，并最终收集并打印结果。

package main.scala.com.spark.demo.com.com.spark.demo
import org.apache.spark.{SparkContext, SparkConf}
object NewWordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("wordCount").setMaster("local")
    val sc = new SparkContext(conf)
    val rdd = sc.textFile("hdfs://master:9000/data01/words.txt")//your file address
    rdd.cache()
    rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)
  }
}