spark分布式环境搭建(1)spark环境搭建
在前面的文章当中,我已经将hadoop这个分布式文件系统搭建完毕,接下来就是对spark环境进行搭建。
注意
在搭建spark之前,有几个点要注意到,因为我们用到的是spark社区提供的安装包,里面可能有些功能是不支持的,需要自己去手动编译。相关的手动编译过程,如果有空的话,我记录一下如何手动编译spark安装包(早知道他喵的就早点记录文档了,啊!好气)
另外一个,spark集群主要有下面几种调度模式
- standalone
这个模式下面就会有那种spark://master:7077端口
- yarn
这个模式下面,yarn只是负责资源调度的,不存在7077端口
- mesos
接下来我想搭建一个spark on yarn模式,因为spark 的standalone模式一般做测试集群用。搭建文档有很多,有空的时候补上~
开始进行spark on yarn集群模式搭建
- 上传
spark的安装包至服务器上的目录,我这里用的是/opt
tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
- 配置spark
- 环境变量
vim /etc/profile ## 在下面添加 export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin ## 添加完毕 ## 使配置生效 source /etc/profile- 修改
spark配置文件
cd /opt/spark/conf cp spark-env.sh.template spark-env.sh vim spark-env.sh ## 下面是配置文件 # 设置hadoop的配置文件文件夹信息 HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop YARN_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop JAVA_HOME=/opt/java/jdk1.8- 配置
slaves文件
cp slaves.template slaves vim slaves ## 在文件里面添加机器的hostname spark1 spark2 spark3- 分发配置文件到各个机器上
scp -r /opt/spark spark2:/opt scp -r /opt/spark spark3:/opt ## 分发环境变量文件到各个机器 scp /etc/profile spark2:/etc scp /etc/profile spark3:/etc- 每台机器上面执行
source /etc/profile- 启动spark
检查启动状态:/opt/spark/sbin/start-all.sh- 输入
jps可以看到启动的角色,主节点有一个master,从节点有worker - 打开浏览器,输入
master节点所在的ip:8080端口号可以看到一个spark web UI
完成!!
本文详细介绍了在已搭建的Hadoop环境基础上,如何进行Spark on YARN模式的集群部署。从上传Spark安装包至服务器,配置环境变量,修改配置文件,到分发配置文件至各机器,直至启动Spark并检查状态,提供了完整的步骤指导。
339

被折叠的 条评论
为什么被折叠?



