【Spark】on Yarn 模式安装配置

本文档详细介绍了如何在安装Scala的基础上,配置和安装Spark以运行在Yarn模式下。首先下载并解压Scala,配置环境变量,然后同样下载Spark并重命名,编辑spark-env.sh和yarn-site.xml文件。接着,分发到其他节点,启动HDFS和YARN。最后,通过YARN Web UI验证Spark-shell在YARN上的运行,并提供了相关参考资料。
在安装spark前先安装scala

下载Scala

上传到/opt/modules/softwares目录并解压到/opt/modules目录下

root@master:/opt/softwares# ll
total 745404
drwxr-xr-x 2 root root      4096 6月  12 17:08 ./
drwxr-xr-x 7 root root      4096 6月   6 16:52 ../
-rw-r--r-- 1 root root 232027212 5月  21 19:11 apache-hive-2.3.5-bin.tar.gz
-rw-r--r-- 1 root root 168663748 5月  27 22:00 apache-storm-1.2.2.tar.gz
-rw-r--r-- 1 root root 113175674 5月  20 18:50 hbase-1.4.9-bin.tar.gz
-rw-r--r-- 1 root root  19413106 6月  12 17:08 scala-2.13.0.tgz
-rw-r--r-- 1 root root 229988313 6月  12 16:58 spark-2.4.3-bin-hadoop2.7.tgz
root@master:/opt/softwares# tar -zxvf scala-2.13.0.tgz -C /opt/modules/

配置环境变量

vim ~/.bashrc

添加如下

在这里插入图片描述
刷新生效
source ~/.bashrc
验证

root@master:/opt/modules# scala -version
Scala code runner version 2.13.0 -- Copyright 2002-2019, LAMP/EPFL and Lightbend, Inc.
安装spark

下载Spark
上传到/opt/modules/softwares目录并解压到/opt/modules目录下

root@master:/opt/softwares# ll
total 745404
drwxr-xr-x 2 root root      4096 6月  12 17:08 ./
drwxr-xr-x 7 root root      4096 6月   6 16:52 ../
-rw-r--r-- 1 root root 232027212 5月  21 19:11 apache-hive-2.3.5-bin.tar.gz
-rw-r--r-- 1 root root 168663748 5月  27 22:00 apache-storm-1.2.2.tar.gz
-rw-r--r-- 1 root root 113175674 5月  20 18:50 hbase-1.4.9-bin.tar.gz
-rw-r--r-- 1 root root  19413106 6月  12 17:08 scala-2.13.0.tgz
-rw-r--r-- 1 root root 229988
<think>好的,我需要帮用户查找关于Spark on Yarn安装配置教程,特别是黑马程序员的资料。首先,用户提供的引用中,引用[^1]提到黑马程序员的Spark教程,可能包含相关内容。但问题在于用户提供的链接是否直接对应到Spark on Yarn配置部分。 我需要先检查引用内容。引用[^1]是Spark教程,但描述中只提到4天快速入门,可能涵盖基础内容,但不确定是否包含Spark on Yarn的具体配置步骤。用户可能需要更详细的步骤,比如环境变量设置、配置文件修改等。 接下来,引用[^2]是Hadoop的下载地址,而Spark on Yarn需要Hadoop环境,所以可能需要指导用户安装Hadoop 3.3.0,并配置Yarn。引用[^3]是下载工具,可能对用户下载所需软件有帮助,但不太相关于安装配置本身。 用户可能需要的步骤包括:1. 确保Hadoop(Yarn)已正确安装;2. 下载并解压Spark;3. 配置Spark的环境变量和配置文件(如spark-env.sh);4. 测试Spark on Yarn模式。 需要确认黑马程序员的教程中是否有这些步骤。由于引用的教程是基于Python的,可能涉及PySpark配置,需要注意相关细节。另外,可能需要引导用户参考官方文档作为补充,因为第三方教程可能步骤不全。 用户可能遇到的常见问题包括环境变量配置错误、Yarn资源管理配置不当,或者Spark与Hadoop版本不兼容。因此,在回答中应提醒注意版本匹配,例如Spark 3.2与Hadoop 3.3.0的兼容性。 最后,需要确保回答结构清晰,分步骤说明,并引用提供的参考资料,特别是黑马程序员的教程和Hadoop的下载链接。如果教程中没有详细步骤,建议用户查阅官方文档或提供额外资源链接。</think>以下是根据黑马程序员Spark教程整理的Spark on Yarn安装配置步骤: ### 一、环境准备 1. 已安装Hadoop 3.3.0集群(下载地址见引用) 2. 下载Spark 3.2版本(需与Hadoop版本匹配) 3. 确保YARN_RESOURCEMANAGER_USER环境变量已配置 ### 二、核心配置步骤 1. 解压Spark安装包并配置环境变量 ```bash export SPARK_HOME=/opt/spark-3.2.0-bin-hadoop3.2 export PATH=$PATH:$SPARK_HOME/bin ``` 2. 修改`spark-env.sh`配置文件 ```bash cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh echo "export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop" >> spark-env.sh echo "export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop" >> spark-env.sh ``` 3. 配置`spark-defaults.conf` ```properties spark.master yarn spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode:8020/spark-logs ``` ### 三、验证部署 执行测试任务: ```bash spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.2.0.jar 10 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值