Spark----【spark on yarn】

本文详细介绍了如何在YARN上部署和运行Spark,包括Hadoop和Spark的安装配置,以及cluster模式和client模式的运行原理与区别。通过实例展示了计算PI的Spark应用在不同模式下的提交方式。

Spark on Yarn

1. 官方文档

http://spark.apache.org/docs/latest/running-on-yarn.html

2. 配置安装

1.安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。

2.安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序将作为YARN的客户端用于提交任务

export JAVA_HOME=/export/servers/jdk1.8

export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop

3.启动HDFS和YARN

3. 运行模式 (cluster模式和client模式)
  1. cluster模式

官网案例计算PI

spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
/export/servers/spark/examples/jars/spark-examples_2.11-2.1.3.jar \
10

如果cluster可以运行 , client不能运行 , 就将下面配置添加到yarn-site.xml中即可 , 然后再分发到其他机器上即可

# 关闭虚拟机内存检查(避免虚拟机内存不足时,无法运行)
<property>  
    <name>yarn.nodemanager.vmem-check-enabled</name>  
    <value>false</value>  
</property> 
  1. client模式
spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
/export/servers/spark/examples/jars/spark-examples_2.11-2.1.3.jar \
10

spark-shell必须使用client模式

spark-shell --master yarn --deploy-mode client

  1. 两种模式的区别

cluster模式Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。故当终端停止并不会影响它最终的运行

client模式Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-shell) , 因此当终端停止时就不会继续运行

  1. 原理

    cluster模式

在这里插入图片描述

​ Spark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用。具体过程:

  1. 由client向ResourceManager提交请求,并上传jar到HDFS上

这期间包括四个步骤:

​ a).连接到RM

​ b).从RM的ASM(ApplicationsManager )中获得metric、queue和resource等信息。

​ c). upload app jar and spark-assembly jar

​ d).设置运行环境和container上下文(launch-container.sh等脚本)

  1. ResourceManager为该应用程序分配第一个Container,创建Spark ApplicationMaster(每个SparkContext都有一个ApplicationMaster)

  2. NodeManager启动ApplicationMaster,并向ResourceManager注册

  3. ApplicationMaster从HDFS中找到jar文件,启动SparkContext、DAGscheduler和YARN Cluster Scheduler

  4. ApplicationMaster向ResourceManager注册申请container资源

  5. ResourceManager通知NodeManager分配Container(每个container对应一个executor)

  6. Spark ApplicationMaster直接和container(executor)进行交互,完成这个分布式任务。

client模式
在这里插入图片描述

​ 在client模式下,Driver运行在Client上,通过ApplicationMaster向RM获取资源。本地Driver负责与所有的executor container进行交互,并将最后的结果汇总。结束掉终端,相当于kill掉这个spark应用。一般来说,如果运行的结果仅仅返回到terminal上时需要配置这个。

​ 客户端的Driver将应用提交给Yarn后,Yarn会先后启动ApplicationMaster和executor,另外ApplicationMaster和executor都是装载在container里运行,container默认的内存是1G,ApplicationMaster分配的内存是driver- memory,executor分配的内存是executor-memory。同时,因为Driver在客户端,所以程序的运行结果可以在客户端显示,Driver以进程名为SparkSubmit的形式存在。

spark on yarn图解
在这里插入图片描述

### 关于 Spark on YARN Shuffle Jar 文件的位置 在 Spark 的官方文档以及社区实践中,`spark-yarn-shuffle.jar` 是用于支持 shuffle service 的核心组件之一。此 JAR 文件通常位于 Spark 安装目录下的 `jars/` 子目录中[^1]。如果需要手动定位该文件,则可以通过以下方式确认其路径: #### 默认位置 对于通过 Apache 官方网站下载的标准二进制包(例如引用中的链接指向的版本[^3]),`spark-yarn-shuffle.jar` 应当已经预编译并放置在 `$SPARK_HOME/jars/` 中。 #### 自定义构建环境 如果是自行编译的 Spark 版本,在编译过程中未启用 Hive 支持的情况下,仍然会生成 `spark-yarn-shuffle.jar` 并将其打包到最终的发布版中。需要注意的是,自定义编译可能会改变某些依赖项的具体名称或结构,因此建议验证实际生成的 JAR 列表。 #### 配置调整 在配置 Spark 运行于 YARN 模式时,脚本 `common.sh` 替换了默认的 `spark-defaults.conf` 属性设置,其中涉及到了 HDFS 上存储的 JAR 路径[^2]。具体而言,这些路径被更新为本地安装目录内的子集,即: ```bash local:$SPARK_HOME/jars/* ``` 这意味着所有的必要库文件都会从上述地址加载至集群节点上的运行环境中。如果目标是替换现有的 shuffle 实现或者调试特定行为,可以考虑修改 `spark.shuffle.manager` 参数,并确保新的 shuffle manager 所需资源已正确部署。 #### CDH 环境注意事项 针对基于 Cloudera Distribution (CDH) 构建的大数据平台,有时会出现因缺失辅助工具包而导致的功能受限情况[^4]。尽管这主要影响其他服务而非直接关联到 shuffle jar 文件本身,但在排查类似问题时仍应检查是否有额外需求满足当前作业流程的要求。 ```python import os def find_shuffle_jar(spark_home): jars_dir = os.path.join(spark_home, 'jars') files = os.listdir(jars_dir) for file_name in files: if 'yarn-shuffle' in file_name and file_name.endswith('.jar'): return os.path.join(jars_dir, file_name) # Example usage with typical SPARK_HOME path print(find_shuffle_jar('/path/to/spark')) ``` 以上代码片段展示了如何程序化查找给定 Spark 主目录下是否存在匹配条件的目标 JAR 文件。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值