spark-submit的参数名称解析

最新推荐文章于 2025-03-11 21:47:11 发布

原创最新推荐文章于 2025-03-11 21:47:11 发布 · 4.6k 阅读

CC 4.0 BY-SA版权

38 篇文章

订阅专栏

本文详细介绍了使用spark-submit命令时需要传入的各种参数及其含义，包括Master URL、部署模式、类名称、应用程序名称等，帮助读者更好地理解并配置Spark应用程序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

执行时需要传入的参数说明

Usage: spark-submit [options] <app jar | python file> [app options]

参数名称	含义
--master MASTER_URL	可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local
--deploy-mode DEPLOY_MODE	Driver程序运行的地方，client或者cluster
--class CLASS_NAME	主类名称，含包名
--name NAME	Application名称
--jars JARS	Driver依赖的第三方jar包
--py-files PY_FILES	用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表
--files FILES	用逗号隔开的要放置在每个executor工作目录的文件列表
--properties-file FILE	设置应用程序属性的文件路径，默认是conf/spark-defaults.conf
--driver-memory MEM	Driver程序使用内存大小
--driver-java-options
--driver-library-path	Driver程序的库路径
--driver-class-path	Driver程序的类路径
--executor-memory MEM	executor内存大小，默认1G
--driver-cores NUM	Driver程序的使用CPU个数，仅限于Spark Alone模式
--supervise	失败后是否重启Driver，仅限于Spark Alone模式
--total-executor-cores NUM	executor使用的总核数，仅限于Spark Alone、Spark on Mesos模式
--executor-cores NUM	每个executor使用的内核数，默认为1，仅限于Spark on Yarn模式
--queue QUEUE_NAME	提交应用程序给哪个YARN的队列，默认是default队列，仅限于Spark on Yarn模式
--num-executors NUM	启动的executor数量，默认是2个，仅限于Spark on Yarn模式
--archives ARCHIVES	仅限于Spark on Yarn模式