环境搭建-Spark on YARN
基情链接
模式说明
Running Spark on YARN - Spark 2.4.5 Documentation (apache.org)
运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算
搭建准备
环境准备
云服务器 3 台
node1/172.17.0.8 | node2/172.17.30.12 | node3/172.17.30.26 | |
---|---|---|---|
ResourceManager | ✔ | ||
NodeManager | ✔ | ✔ | ✔ |
JobHistoryServer | ✔ | ||
HistoryServer | ✔ |
安装包下载
目前 Spark
最新稳定版本,企业中使用较多版本为 2.x
的版本系列
Spark 下载界面:Downloads | Apache Spark
Spark 2.4.5 版本下载:Index of /dist/spark/spark-2.4.5 (apache.org)
本博客安装的版本为:spark-2.4.5-bin-hadoop2.7.tgz
环境配置
3 台服务器装好 JDK、配置 服务器的 hostname
、域名映射、zk 集群、Yarn
配置修改
① 解压 Spark
安装包
# 解压安装包
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz
# 创建软连接,方便后期升级
ln -s /opt/server/spark-2.4.5-bin-hadoop2.7 /opt/server/spark
# 如果有权限问题,可以修改为root,方便学习时操作,实际中使用运维分配的用户和权限即可
chown -R root /opt/server/spark-2.4.5-bin-hadoop2.7
chgrp -R root /opt/server/spark-2.4.5-bin-hadoop2.7
② 修改 spark-env.sh
cd /opt/server/spark/conf
# 修改文件名
mv spark-env.sh.template spark-env.sh
# 编辑配置文件,增加以下内容
vim /opt/server/spark/conf/spark-env.sh
HADOOP_CONF_DIR=/opt/server/hadoop-2.7.5/etc/hadoop
YARN_CONF_DIR=/opt/server/hadoop-2.7.5/etc/hadoop
③ 修改 yarn-site.xml
cd /opt/server/hadoop/etc/hadoop
vim /opt/server/hadoop-2.7.5/etc/hadoop/yarn-site.xml