Spark_Core实例学习(三)SparkWordCount分析

最新推荐文章于 2023-06-06 14:17:06 发布

阳光里哭泣的狗

最新推荐文章于 2023-06-06 14:17:06 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark 大数据 hadoop python java

本文链接：https://blog.youkuaiyun.com/qq_43659234/article/details/116795792

spark 专栏收录该内容

4 篇文章

订阅专栏

本文档详细介绍了如何在IntelliJ IDEA中搭建Spark本地运行环境，包括从官方网站下载并解压Spark压缩包，然后将jar包导入项目。接着展示了WordCount的基本编程，通过`textFile()`读取数据，`flatMap()`进行扁平化处理，`map()`转换为二元组，最后`reduceByKey()`进行数据聚合。整个过程清晰地解释了WordCount的执行流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

搭建spark本地的运行环境

idea具体操作

下载spark的压缩包
https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

在这里插入图片描述
解压下载好的spark,找到spark的路径,将jars文件夹下的jar包导入

导入之后就能使用spark了

WordCount编程

import org.apache.spark.{SparkConf, SparkContext}

/**
 1. @author 公羽
 2. @time : 2021/5/9 16:46
 3. @File : learn2.java
 */
object learn2 {
  def main(args: Array[String]): Unit = {
    val config = new SparkConf().setAppName("test1").setMaster("local[6]").set("spark.driver.host","localhost")
    val sc  = new SparkContext(config)
    val rdd1 = sc.textFile("C:\\Users\\lenovo\\Desktop\\test.txt")
//    flatMap[U: ClassTag](f: T => TraversableOnce[U]):
    //    RDD[U]
    val rdd2 = rdd1.flatMap(x => x.split(",")).map(line => line -> 1).reduceByKey(_ + _)
    rdd2.foreach(lines => println(lines))
  }
}