spark-submit参数说明
参数名 | 格式 | 参数说明 |
---|---|---|
–master | MASTER_URL | spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local |
–deploy-mode | DEPLOY_MODE | Client或者master,默认是client |
–class | CLASS_NAME | 应用程序的主类 |
–name | NAME | 应用程序的名称 |
–jars | JARS | 逗号分隔的本地jar包,包含在driver和executor的classpath下 |
–packages | 包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifactId:version”列表 | |
–exclude-packages | 用逗号分隔的”groupId:artifactId”列表 | |
–repositories | 逗号分隔的远程仓库 | |
–py-files | PY_FILES | 逗号分隔的”.zip”,”.egg”或者“.py”文件,这些文件放在python app的PYTHONPATH下面 |
–files | FILES | 逗号分隔的文件,这些文件放在每个executor的工作目录下面 |
–conf | PROP=VALUE | 固定的spark配置属性,默认是conf/spark-defaults.conf |
–properties-file | FILE | 加载额外属性的文件 |
–driver-memory | MEM | Driver内存,默认1G |
–driver-java-options | 传给driver的额外的Java选项 | |
–driver-library-path | 传给driver的额外的库路径 | |
–driver-class-path | 传给driver的额外的类路径 | |
–executor-memory | MEM | 每个executor的内存,默认是1G |
–proxy-user | NAME | 模拟提交应用程序的用户 |
–driver-cores | NUM | Driver的核数,默认是1。这个参数仅仅在standalone集群deploy模式下使用 |
–supervise | Driver失败时,重启driver。在mesos或者standalone下使用 | |
–verbose | 打印debug信息 | |
–total-executor-cores | NUM | 所有executor总共的核数。仅仅在mesos或者standalone下使用 |
–executor-core | NUM | 每个executor的核数。在yarn或者standalone下使用 |
–driver-cores | NUM | Driver的核数,默认是1。在yarn集群模式下使用 |
–queue | QUEUE_NAME | 队列名称。在yarn下使用 |
–num-executors | NUM | 启动的executor数量。默认为2。在yarn下使用 |
案例
/opt/cloudera/parcels/CDH/lib/spark/bin/spark-submit
–class com.goldeneggs.dmfang.data_loading.run.KafkaRun
–master yarn
–deploy-mode client
–driver-memory 2g
–files /etc/hbase/conf/hbase-site.xml
–executor-memory 3g
–executor-cores 2
–conf spark.dynamicAllocation.maxExecutors=50
–name kafka_to_hbase_$1
data-loading-1.0-SNAPSHOT-jar-with-dependencies.jar $1