一、搭建的环境
windows7
spark-2.3.2
python-3.6.5
Java8
二、安装部署
1、安装Java/Jdk
下载jdk-8u152-windows-x64.exe,根据安装指南进行安装,配置环境变量JAVA_HOME,在Path中添加%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin,在CLASSPATH中添加%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar。
配置完成后, 在CMD中运行java -version检查是否安装成功。
2、安装Spark
下载spark-2.3.2-bin-hadoop2.7.tgz,http://apache.communilink.net/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz。解压到指定路径,添加环境变量SPARK_HOME到该路径,并在Path中添加%SPARK_HOME%\bin和%SPARK_HOME%\sbin
3、安装Python
下载python-3.6.5-amd64.exe,https://www.python.org/ftp/python/3.6.5/python-3.6.5-amd64.exe。根据安装指南进行安装。安装完成后,在CMD中运行python --version检查安装是否成功。
将spark\python\pyspark整个文件夹复制到Anaconda3\Lib\site-packages文件夹中。
另外,需要在python中安装py4j。
pip install py4j
4、安装Hadoop
根据下载的Spark版本,下载相应版本的hadoop2.7.7,http://mirror-hk.koddos.net/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 。解压到指定路径,添加环境变量HADOOP_HOME为该路径,并在Path中添加%HADOOP_HOME%\bin。将hadoop.dll,winutils.exe拷贝到%HADOOP_HOME%\bin目录。
ps:可自行在windows7 中编译hadoop源码已得到相应的hadoop.dll,winutils.exe等,具体操作比步骤可参考https://blog.youkuaiyun.com/LiuQQu/article/details/83825304。
三、验证
打开IDLE,执行以下命令:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test")
sc = SparkContext(conf=conf)
这时,弹出一个dos窗口。
在IDLE中继续输入:
data = sc.parallelize(range(10))
sum = data.reduce(lambda x, y: x + y)
print(sum)
输出45。
验证成功,按Ctrl+D退出Spark shell。
参考文章:https://blog.youkuaiyun.com/hjxinkkl/article/details/57083549