提交Spark应用程序的三种方式

原创

已于 2022-02-21 17:39:26 修改 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #big data #大数据 #分布式 #hadoop

于 2022-02-19 16:45:56 首次发布

本文介绍了Spark应用程序提交的三种模式：Client本地模式和Cluster集群模式，详细解析了standalone HA及spark on yarn环境下的提交，并讲解了常用Spark命令参数，如master、deploy-mode、driver-memory等，帮助企业理解如何优化Spark应用的资源配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Client 本地模式和 Cluster 集群模式最本质的区别在于：Driver程序在哪里？

Client模式下的Drive就在提交Spark应用程序所在的机器上运行
Cluster模式下的Drive在集群的某台空闲的WorkerNode上运行

1、standalone HA 下的 client 本地模式，提交圆周率Spark应用程序（测试模式中使用）

${SPARK_HOME}/bin/spark-submit \
--master spark://node1.itcast.cn:7077,node2.itcast.cn:7077 \
--deploy-mode client \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
${SPARK_HOME}/examples/src/main/python/pi.py \
100

2、standalone HA 下的 cluster 集群模式，提交圆周率Spark应用程序

SPARK_HOME=/export/server/spark
${SPARK_HOME}/bin/spark-submit \
--master spark://node1.itcast.cn:7077 \
--deploy-mode cluster  \
--driver-memory 512m \
--executor-memory 512m \
--total-executor-cores 2 \
--class org.apache.spark.examples.SparkPi \
${SPARK_HOME}/examples/jars/spark-examples_2.12-3.1.2.jar \
10