Spark on YARN

Spark on YARN 基本概念

  1. YARN(Yet Another Resource Negotiator): 是 Hadoop 生态系统的一部分,用于集群资源管理和作业调度。
  2. Spark on YARN: 是指在 YARN 上运行 Spark 应用程序,利用 YARN 来管理资源和调度任务。

Spark on YARN 的运行模式

  1. Cluster 模式: 在这种模式下,Spark Driver 运行在 YARN 集群的一个节点上,适合长时间运行的作业。
  2. Client 模式: 在这种模式下,Spark Driver 运行在提交应用程序的客户端机器上,适合开发和调试。

Spark on YARN 的配置

为了在 YARN 上运行 Spark,需要进行一些配置:

  1. yarn-site.xml: 这是 YARN 的配置文件,通常位于 Hadoop 配置目录中。你需要确保这个文件在 Spark 配置中可以访问。

  2. spark-env.sh: 这是 Spark 的环境配置文件。你需要设置一些环境变量,比如 SPARK_HOME, HADOOP_CONF_DIR 等。

  3. spark-defaults.conf: 这是 Spark 的默认配置文件,可以在这里设置 Spark 作业的一些默认参数,比如 master URL(yarn)、deploy mode(client 或 cluster)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值