《PySpark大数据分析实战》-13.Spark on YARN模式代码运行流程

wux_labs

已于 2023-12-20 22:49:31 修改

阅读量1k

点赞数 16

CC 4.0 BY-SA版权

分类专栏： PySpark大数据分析实战文章标签：数据分析数据挖掘大数据数据科学 PySpark

于 2023-12-17 18:10:34 首次发布

本文链接：https://blog.youkuaiyun.com/wux_labs/article/details/135047796

PySpark大数据分析实战专栏收录该内容

28 篇文章

订阅专栏

本文详细介绍了PySpark在YARN模式下的运行流程，包括YARNClient和YARNCluster两种模式，解释了Driver、Executor和Task的交互过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

📋 博主简介

💖 作者简介：大家好，我是wux_labs。😜
热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。
📝 个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥
📝 个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥
🎉 请支持我：欢迎大家点赞👍+收藏⭐️+吐槽📝，您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-13.Spark on YARN模式代码运行流程

《PySpark大数据分析实战》-13.Spark on YARN模式代码运行流程

《PySpark大数据分析实战》-13.Spark on YARN模式代码运行流程

前言

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容：Spark on YARN模式代码运行流程。

图书在：当当、京东、机械工业出版社以及各大书店有售！

Spark on YARN模式代码运行流程

提交Spark应用程序运行，当master指定为yarn的时候，还可以指定另外一个选项：–deploy-mode，该选项支持两个选项client和cluster，当不指定该选项时默认是client。在client模式下，会在执行spark-submit命令的客户端启动Spark的Driver进程，所有Driver的操作都在客户端执行，比如在Driver进行print打印，print的结果会在客户端，YARN的Web界面上无法从日志中找到print的结果。在cluster模式下，YARN会进行资源调度，选择集群中的一个节点作为Spark的Master，在该节点启动Driver进程，Driver的操作都在该节点上执行，比如在Driver进行print打印，print的结果会在该节点的日志中，通过YARN的Web界面查看日志可以看到print的结果，而在执行spark-submit命令的客户端则看不到print的结果。