spark yarn集群(二)

本文介绍了如何在已有的Hadoop集群上搭建Spark YARN集群,详细阐述了从下载Spark包到配置环境变量、配置workers和spark-env.sh,再到启动Spark的过程。重点强调了SPARK_DIST_CLASSPATH的配置对于避免任务提交失败的重要性。最后,通过一个WordCount实例展示了Spark YARN集群的正常运行,并提供了YARN管理界面的访问地址。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark yarn集群(二)

现阶段公司常用的是hadoop环境,spark可以使用yarn进行资源管理,所以今天准备搭建一套spark-yarn集群。

前言

目前已准备好hadoop集群,节点如下

主机名角色
sparkNameNode,ResourceManager
spark-w1DataNode,NodeManager
spark-w2DataNode,NodeManager

开始spark安装

1.下载spark包

这次采用的是spark-3.1.2-bin-without-hadoop.tgz,需要自行安装hadoop,环境已具备。

2.spark配置

1)配置环境变量,在/etc/profile中添加如下内容:

export SPARK_HOME=/opt/software/spark-3.1.2-bin-without-hadoop
export PATH=export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

2)配置spark中的workers,这个是相当于工作节点

spark
spark-w1
spark-w2

3)配置spark中spark-env.sh

export JAVA_HOME=/opt/software/jdk1.8.0_291
export SPARK_MASTER_IP=spark
export SPARK_MASTER_PORT=7077
export HADOOP_HOME=/opt/software/hadoop-3.2.2
export HADOOP_CONF_DIR=/opt/software/hadoop-3.2.2/etc/hadoop
export export SPARK_DIST_CLASSPATH=$(${HADOOP_HOME}/bin/hadoop classpath)

注意:尤其是最后一句SPARK_DIST_CLASSPATH设置,这个不设置可能导致spark提交任务失败,应该是缺少hadoop包

3.启动

对,你没看错,开始启动了,配置完了;
执行hadoop/sbin/包中的start-all.sh,注意是hadoop包中

./sbin/start-all.sh

在各个节点中执行jps命令,查看启动情况
这是主节点中的
在这里插入图片描述
这是worker节点中
在这里插入图片描述

4.执行wordcount

我自己准备了个wordcount包,然后执行如下命令

spark-submit 
--master yarn 
--deploy-mode cluster  
--class WordCount ##启动类 
wc.jar ## 包名
input ##文件输入路径(hdfs中的)

结果如下,浏览器浏览yarn界面(http://spark:8088)
在这里插入图片描述

总结

spark-yarn集群安装启动时不需要单独启动spark的进程的,它是由yarn来进行资源管理和分配的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值