spark集群部署-SPARK ON YARN

一、spark on yark的本质:

master角色由yarn的resourcemanager担任(集群资源管家)。

worker角色由nodemanager担任(单机资源管家)。

driver运行在yarn容器内或者提交任务的客户端过程内。

干活的executor运行在yarn提供的容器内。

需要什么?

yarn集群

spark客户端

被提交的代码程序

部署:

Hadoop和yarn的环境变量

袁神启动!

在此之前要启动Hadoop-yarn。并进入expert里面的spark文件夹,启动。

bin/pyspark --master yarn

集群调度交给yarn,计算交给spark的executor。

两种运行模式:

1.cluster模式:driver运行在yarn容器内部

spark-submit --master yarn --deploy-mode cluster my_spark_app.py

2.client模式:driver运行在客户端,以上指令为客户端。

1)

  • pyspark 是 Spark 的交互式 PySpark Shell,通常用于在交互式 Python 环境(如 Jupyter Notebook 或终端)中运行 Spark 作业。pyspark --master yarn

  • 是 Spark 的应用程序提交工具,用于将打包好的 Spark 应用程序(如 .py.jar 文件)提交到集群上运行。spark-submit --master yarn --deploy-mode my_spark_app.py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值