配置spark之前,先要有jdk和scala环境
下载并安装JDK
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
下载完双击安装,点击下一步直至安装完
2.配置环境变量
打开cmd窗口,输入 java -version
跳出下图的结果表示安装已经成功了
scala安装
网址:https://www.scala-lang.org/
下载这个版本
4.安装Scala的msi文件
一直点击下一步安装即可
完成后会自动添加环境变量,如果没有添加,按jdk的方式添加就行了
重新打开cmd输入 scala
spark配置
到官网下载spark http://spark.apache.org/
点击download
选择清华的源下载
下载后直接解压,配置环境变量
将解压文件夹里的bin目录添加到环境变量
Hadoop安装
官网下载Hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common
选择清华大学的镜像源,下载速度会快很多
我选择的是2.7版本,一定要与spark对应
下载完后解压到指定目录、添加环境变量
新建系统变量命名为HADOOP_HOME, 值为Hadoop的解压路径
在path里添加刚才设置的环境变量
在命令行输入spark-shell测试spark配置情况
配置python开发环境
将spark目录下的pyspark文件夹(C:\Spark\python\pyspark)复制到python安装目录python的Lib\site-packages里。如图所示
使用pip安装py4j
pip install py4j
添加PYTHONPATH变量
至此配置结束