Intellij IDEA创建spark项目

阿辰学弟

已于 2022-08-18 11:57:39 修改

阅读量2.3k

点赞数 7

文章标签： spark intellij-idea scala

于 2022-08-18 11:50:27 首次发布

本文链接：https://blog.youkuaiyun.com/m0_61022929/article/details/126402867

版权

本文详细介绍了如何在Windows上下载、安装Scala和Spark，并配置环境变量。通过命令行验证安装成功后，展示了创建Scala项目的过程，包括导入Scala SDK、安装Scala插件以及引入Spark的jar包。接着，编写了一个简单的WordCount程序，用于读取并过滤文件中的特定内容，统计出现次数，最后将结果保存到指定文件。程序适用于初学者理解Scala和Spark的基本操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

环境搭建

hadoop-2.7.5
scala-2.12.7
spark-3.3.0
JDK 1.8.0

官网下载安装Scala 和 Spark并配置windows环境变量：

下载后解压，然后配置环境变量，版本要适配不然运行程序时可能会报错

scala下载：

本帖所安装的版本为scala-2.12.7可自行安装其他版本

进入自己所选择的版本，滑到下边，选择Windows版

下载到随便一个没有中文字符的目录并解压出来

右键属性此电脑，打开高级设置添加系统环境变量

打开命令提示符小黑窗，输入

scala -version

出现版本号说明已经安装配置成功

spark下载：

本帖所安装的版本为spark-3.3.0-bin-hadoop2可自行安装其他版本

进入所选的版本，再次选择自己所需要下载的文件

下载到随便一个没有中文字符的目录并解压出来

右键属性此电脑，打开高级设置添加系统环境变量

配置完后打开命令提示符小黑窗，输入

spark-shell

出现版本号说明已经安装配置成功

创建Scala项目

Scala SDK：点击创建—>浏览—>选择自己Scala目录—>确定

安装Scala插件，这里我已经下载过了没下载的直接点Install等待下载安装完成再操作

导入spark的jar包

创建一个Scala类

运行第一个WordCount程序：

对spark1.txt文件进行筛选，将A或者包含A的字母筛选出来并统计个数，然后输出到dome1文件中。

#数据如下
id	编号	内容
A	B	C
AB	A	B
C	A	B
AB	AB	AB

import org.apache.spark.{SparkConf, SparkContext}

object demo {
  def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf().setAppName("demo1").setMaster("local")
    var sc = new SparkContext(sparkConf)
//    文件输入路径
    var filepath = "F:\\test\\spark_work\\input\\spark1.txt"
    //获取第一行
    var fileFirst = sc.textFile(filepath).first()

    sc.textFile(filepath).filter(!_.equals(fileFirst)).flatMap(_.split("\t")).filter(_.contains("A"))
//      文件输出路径，该目录自主创建会导致报错，程序运行后它会自动创建该目录
      .map((_,1)).reduceByKey(_+_).saveAsTextFile("F:\\test\\spark_work\\output")
  }
}