1.机器准备
准备三台Linux服务器,安装好JDK1.8。
2.下载Spark安装包
上传解压安装包:spark-2.1.1-bin-hadoop2.7.tgz 安装包到Linux上
解压安装包到指定位置:tar -zxvf /opt/software/spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
3.配置Spark【Standalone】
Spark的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos,我们选择最具代表性的Standalone集群部署模式(在下一节我们会具体讲解Spark的部署模式)。
3.1 进入到Spark安装目录:/opt/module/spark-2.1.1-bin-hadoop2.7/conf;
3.2 将slaves.template复制为slaves, 修改slave文件,将work的hostname输入;
[hadoop@hadoop102 conf]$ mv slaves.template slaves
[hadoop@hadoop102 conf]$ vim slaves
# 里面的内容原来为localhost
hadoop102
hadoop103
Hadoop104
3.3 将spark-env.sh.template复制为spark-env.sh,修改spark-env.sh文件,添加如下配置:
# 把SPARK_HOME/conf/下的spark-env.sh.template文件复制为spark-env.sh
[hadoop@hadoop102 apps]$ cd spark-2.2.0/conf
[hadoop@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh
# 修改spark-env.sh配置文件,添加如下内容
[hadoop@hadoop01 conf]$ vim spark-env.sh
# 配置JAVA_HOME,一般来说,不配置也可以,但是可能会出现问题,还是配上吧
export JAVA_HOME=/usr/local/java/jdk1.8.0_73
# 一般来说,spark任务有很大可能性需要去HDFS上读取文件,所以配置上
# 如果说你的spark就读取本地文件,也不需要yarn管理,不用配
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.