spark on yarn 的运行模式

最新推荐文章于 2025-05-23 19:11:05 发布

原创最新推荐文章于 2025-05-23 19:11:05 发布 · 147 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#saprk

spark 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了Spark任务的提交方式，包括使用spark-submit命令，可选择yarn cluster和yarn client提交。还阐述了任务提交到Spark后的执行机制，如RDD object被DAG schedule分阶段，任务由task schedule分配到worker执行，DAG schedule有容错机制，application master与resource manager通信分配资源。

任务提交方式
sudo -u hadoop /srv/soft/spark-2.4.0-bin-hadoop2.7/bin/spark-submit
–master yarn
–deploy-mode cluster
–num-executors 5
–driver-memory 1g
–executor-memory 1g
–executor-cores 1
–files /srv/soft/spark-2.4.0-bin-hadoop2.7/conf/hive-site.xml
–class com.wutong.autopai.service.ParseIotLogJsonToHive
/opt/iot_log_parse/iot_log_parse.jar ${TODAY} ${MODE}

spark 服务applicationMaster ，executor，worker
yarn 服务 resource manager
分为提集群yarn cluster提交和 yarn client 提交方式
任务提交到spark 后，RDD object 被 DAG schedule 分成不同的阶段，来保证队列的不同阶段快照，每个队列会的任务通过task schedule 进行分配任务到 worker，每一个worker 通过 task.run方法调取 executer 来执行任务。

DAG schedule 有容错机制，可以保存队列的快照，如果一旦出错，就会回滚

application master 通信 resource manager ，来分配 driver 的context，来调动资源

spark 的类继承图
待补充