spark集群部署-SPARK ON YARN

哈哈哈哈q

已于 2025-02-07 21:07:19 修改

阅读量354

点赞数 11

分类专栏： +spark 文章标签： spark 大数据分布式

于 2025-02-07 18:10:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_74230025/article/details/145499658

版权

+spark 专栏收录该内容

7 篇文章

订阅专栏

一、spark on yark的本质：

master角色由yarn的resourcemanager担任（集群资源管家）。

worker角色由nodemanager担任（单机资源管家）。

driver运行在yarn容器内或者提交任务的客户端过程内。

干活的executor运行在yarn提供的容器内。

需要什么？

yarn集群

spark客户端

被提交的代码程序

部署：

Hadoop和yarn的环境变量

袁神启动！

在此之前要启动Hadoop-yarn。并进入expert里面的spark文件夹，启动。

bin/pyspark --master yarn

集群调度交给yarn，计算交给spark的executor。

两种运行模式：

1.cluster模式：driver运行在yarn容器内部

spark-submit --master yarn --deploy-mode cluster my_spark_app.py

2.client模式：driver运行在客户端，以上指令为客户端。

1）

pyspark 是 Spark 的交互式 PySpark Shell，通常用于在交互式 Python 环境（如 Jupyter Notebook 或终端）中运行 Spark 作业。pyspark --master yarn
是 Spark 的应用程序提交工具，用于将打包好的 Spark 应用程序（如 .py 或 .jar 文件）提交到集群上运行。spark-submit --master yarn --deploy-mode my_spark_app.py

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。