一、Spark安装前提
安装Spark之前,需要安装JDK、Hadoop、Scala。
1.1、JDK安装(version:1.8)
官网下载地址(需要oracle账号)
https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
1.2、Scala安装(version:2.11.12)
1.2.1、Scala官网下载
官网下载地址:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.msi
1.3、Hadoop安装(version:2.7.2)
参考博文:Windows下安装Hadoop(手把手包成功安装)
需要:winutils.exe文件
二、安装Spark(version:2.4.7)
2.1、Spark官网下载
官网下载地址:https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
历史版本仓库:https://archive.apache.org/dist/spark/
安装好记得配置对应的环境变量
三、pyspark的使用注意
配置好spark后,如果需要在windows环境下测试。需要切换到对应的conda的env环境中。使用
下面的命令运行:
spark-submit --master local[4] demo_spark.py