基于Spark下WordCount的Demo

最新推荐文章于 2020-11-29 15:36:54 发布

原创最新推荐文章于 2020-11-29 15:36:54 发布 · 344 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#基于Spark下WordCount的Demo

新手必看同时被 3 个专栏收录

155 篇文章

订阅专栏

编程规则

95 篇文章

订阅专栏

Spark

29 篇文章

订阅专栏

本文介绍如何使用Apache Spark实现WordCount程序，从读取文本文件开始，通过一系列转换操作如切分、映射、归约等，最终统计单词频率并排序，最后将结果保存到本地目录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
  def main(args: Array[String]): Unit = {
    /**
      * 创建SparkConf（）并设置App名称
      * local指本地
      * 2代表在本地起两个线程
      */
    val conf = new SparkConf().setAppName("WC").setMaster("local[2]")

    /**
      * 创建SparkContext,该对象是提交的Spark App的入口
      */
    val sc = new SparkContext(conf)

    /**
      * 使用sc创建RDD并执行相应的transformation和action
      * 1:按照空格进行切分
      * 2：将得到的数组中的元素组合成（单词，1）的形式
      * 3：统计相同的key出现多少次
      * 4：根据出现的次数将元组进行排序，默认是升序，false代表降序
      * 5：保存到相应的本地目录下
      */
    sc.textFile("E:\\words.txt").
      flatMap(_.split(" ")).
      map((_,1)).
      reduceByKey(_+_,1).
      sortBy(_._2,false).
      saveAsTextFile("E:\\outputFile")
    //关闭资源
    sc.stop()

  }
}