学习过程我们先不去关注Spark的运行环境和部署方式,只要起来了能用,咱就开始先用着,如果一开始就深入研究里面的运行原理,会发现根本出不来了,所以我们先动手实现程序,在过程中慢慢去理解里面的执行原理。
首先我们先去百度看下,要怎么写自己的第一个程序呢?我们可以选择Python,Java,Scala。不过多数推荐Scala,Java现在也能写,但是我稍微去查了些资料,看见Java编写的技术文档不多,很多都是Scala的技术文档和问题解决。所以需要准备下面的东西:
开发环境:IDEA。
Spark版本:spark-3.0.0
Scala版本:2.12
关于Spark和Scala版本的对应,可以去Maven仓库去查看(可以看见Spark3.0.0选择Scala的版本是2.12版本)
pom文件
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.vedeng.scala.project</groupId>
<artifactId>first.scala</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<scala.version>2.12.10</scala.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId