因为是使用Maven形式,可以直接引入Scala和Spark依赖,所以不依赖于Windows配置的Scala、Spark环境变量,即也不使用本地的Scala和Spark环境。
经过测试,使用本方式,完全可以使用Spark3.2.0版本,当然如果想要继续使用Spark3.1.2也没问题。两个版本没有大的差异性。
在IDEA中开发Spark,可以使用两种方式环境方式,一是使用本地Scala库,建立Scala项目,导入Spark jar包。一种是通过Maven引入Scala、Spark依赖。我们本次使用Maven的方式,符合Java开发者的习惯于行业规范。
一、首先在IDEA中搜索Scala插件并安装。
二、新建一个Maven的空项目(即不选择archetype)
三、在新项目下新建一个Module,选择archetype为scala-archetype-simple,如下图所示:
四、修改pom.xml
1、修改Scala的版本为2.13.7
<scala.version>2.13.7</scala.version>
备注,如果使用Spark3.1.2需要使用Scala2.12.15
<scala.version>2.12.15</scala.version>
需注意的是,Spark3.1.2不支持Scala2.13
2、修改JVM版本为1.8
<arg>-target:jvm-1.8</arg>
3、引入Spark依赖:
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.13</artifactId>
<version>3.2.0</version>
</dependency>
备注Spark3.1.2依赖
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.1.2</version>
</dependency>
4、删除报错的:
<testSourceDirectory>src/test/scala</testSourceDirectory>
五、删除报错的,如下图的文件和文件夹:
至此,Windows10下使用IDEA搭建Scala开发Spark的环境搭建完毕,下一篇文章,我们将开发一个词频统计来进行测试。