Spark 集群安装

最新推荐文章于 2020-10-24 17:48:32 发布

原创

最新推荐文章于 2020-10-24 17:48:32 发布 · 440 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#scala #spark

1.机器准备

准备三台Linux服务器，安装好JDK1.8。

2.下载Spark安装包

上传解压安装包：spark-2.1.1-bin-hadoop2.7.tgz 安装包到Linux上

解压安装包到指定位置：tar -zxvf /opt/software/spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/

3.配置Spark【Standalone】

Spark的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos，我们选择最具代表性的Standalone集群部署模式(在下一节我们会具体讲解Spark的部署模式)。

3.1 进入到Spark安装目录:/opt/module/spark-2.1.1-bin-hadoop2.7/conf；

3.2 将slaves.template复制为slaves, 修改slave文件，将work的hostname输入；

[hadoop@hadoop102 conf]$ mv slaves.template slaves

[hadoop@hadoop102 conf]$ vim slaves

# 里面的内容原来为localhost

hadoop102

hadoop103

Hadoop104

3.3 将spark-env.sh.template复制为spark-env.sh,修改spark-env.sh文件，添加如下配置:

# 把SPARK_HOME/conf/下的spark-env.sh.template文件复制为spark-env.sh

[hadoop@hadoop102 apps]$ cd spark-2.2.0/conf

[hadoop@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh



# 修改spark-env.sh配置文件，添加如下内容

[hadoop@hadoop01 conf]$ vim spark-env.sh



# 配置JAVA_HOME，一般来说，不配置也可以，但是可能会出现问题，还是配上吧

export JAVA_HOME=/usr/local/java/jdk1.8.0_73

# 一般来说，spark任务有很大可能性需要去HDFS上读取文件，所以配置上

# 如果说你的spark就读取本地文件，也不需要yarn管理，不用配

export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.