Spark 运行参数信息

原创

已于 2024-04-07 17:23:39 修改 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

于 2024-04-07 17:20:14 首次发布

本文深入探讨了Spark运行时的关键参数，包括内存管理、并行度设置、shuffle过程优化等方面，旨在帮助读者理解如何根据具体应用场景调整Spark作业的性能。通过合理配置executor内存、driver内存、分区数等参数，可以显著提升大数据处理的效率。

NAME	备注解释
spark.app.attempt.id
spark.app.id
spark.app.name
spark.blacklist.application.fetchFailure.enabled	项用于控制是否启用应用程序失败的获取失败（fetch failure）黑名单功能，当Spark从另一个程序中取数时失败，就会将其纳入黑名单，并在一段时间内避免从这个应用程序获取数据
spark.blacklist.application.maxFailedTasksPerExecutor	这个配置选项用于控制每个执行器（executor）上失败的任务的最大数量，当超过这个数量时，执行器将被添加到黑名单中。
spark.blacklist.enabled	执行器黑名单是否启动。
spark.blacklist.stage.maxFailedTasksPerExecutor	这个配置选项用于控制每个阶段（stage）在每个执行器（executor）上失败的任务的最大数量，当超过这个数量时，执行器将被添加到黑名单中。
spark.build.date
spark.build.env
spark.build.gitRevision
spark.driver.extraClassPath
spark.driver.extraJavaOptions
spark.driver.extraLibraryPath
spark.driver.host
spark.driver.maxResultSize	这个配置选项用于限制Driver程序可以使用的最大内存量。
spark.driver.maxResultSize	在Spark中，Driver程序是负责任务调度和协调的组件，它需要足够的内存来执行各种任务操作，例如数据划分、任务调度和结果聚合等。如果Driver程序使用的内存超过了spark.driver.maxResultSize配置的值，Spark会抛出异常。需要注意的是，这个配置选项只限制Driver程序使用的最大内存量，并不限制Executor程序使用的内存量。Executor程序是运行在集群中的工作节点上的进程，负责执行具体的任务。如果你还需要限制Executor程序使用的内存量，可以使用spark.executor.memory或spark.executor.memoryOverhead等配置选项进行配置。
spark.driver.memory	spark.driver.memory是Apache Spark的一个配置选项，用于设置Driver程序的内存大小1。
spark.driver.memory	在Spark程序中，SparkContext、DAGScheduler等都运行在Driver端，对应rdd的Stage切分也是在Driver端运行，如果用户自己写的程序有过多的步骤，切分出过多的Stage，这部分信息消耗的是Driver的内存，因此需要根据任务的实际情况合理分配spark.driver.memory的大小。
spark.driver.port
spark.dynamicAllocation.enabled	spark.dynamicAllocation.enabled是Apache Spark的一个配置选项，用于开启动态资源配置。

	根据工作负载来衡量是否应该增加或减少Executor，开启时num-executors参数无效。Spark在作业启动时会自动根据集群资源情况来决定分配的最小Executor个数，默认是0；而最大Executor个数则由spark.dynamicAllocation.maxExecutors参数控制，默认是spark.executor.instances参数的3倍。

	建议在大部分情况下应该设置为true，避免空闲Executor浪费资源。但如果在集群中Executor分配不足，或者存在其他资源配置问题时，也可以考虑关闭该选项。
spark.dynamicAllocation.executorIdleTimeout	用于设置Executor空闲超时时间。
	当Executor空闲时间超过该配置值设定的秒数后，Spark会自动将其销毁，从而节省集群资源。默认情况下，该值是60秒。
	这个配置在集群资源有限，而应用程序运行时间较长，存在Executor长时间空闲的情况下非常有用。如果应用程序运行时间较短，或者集群资源充足，也可以考虑不设置该选项或将其设置得较大。
spark.dynamicAllocation.maxExecutors	spark.dynamicAllocation.maxExecutors是Apache Spark的一个配置选项，用于控制动态资源配置中，每个阶段可以启动的最大Executor个数。
	默认情况下，每个阶段可以启动的最大Executor个数是1000。如果Spark UI中观察到task较多，可以调大此参数，保证task能够并发执行完成，缩短作业执行时间。
	值得注意的是，在调整Spark并行度的时候，还有spark.default.parallelism和spark.sql.shuffle.partitions这2个参数。
spark.dynamicAllocation.minExecutors	spark.dynamicAllocation.minExecutors是Apache Spark的一个配置选项，用于控制动态资源配置中，每个阶段可以启动的最小Executor个数。
	默认情况下，每个阶段可以启动的最小Executor个数是0，即不启动。当Executor数量不足时，Spark会根据当前集群资源情况自动决定启动Executor的数量，保证资源利用最大化。
	如果Spark UI中观察到task较多，可以调大此参数，保证task能够并发执行完成，缩短作业执行时间。但需要注意的是，如果集群资源有限，调大此参数可能会导致集群压力增大，影响其他应用程序的性能。
spark.eventLog.dir
spark.eventLog.enabled
spark.eventLog.split
spark.executor.cantorEtlIncreaseMemory.enabled
spark.executor.cores	spark.executor.cores是Apache Spark的一个配置选项，用于指定每个executor的CPU内核个数。
	如果一个Spark应用程序运行在一个具有多个CPU内核的机器上，则可以通过增加spark.executor.cores的值来提高该应用程序的并发能力。这是因为spark.executor.cores指定了每个executor可以同时执行的task数。默认情况下，spark.executor.cores的值为1，这意味着每个executor只运行一个task。如果将spark.executor.cores设置为2，则每个executor可以同时执行两个task。
	需要注意的是，在设置spark.executor.cores时，应该根据机器的CPU资源和应用的需求进行权衡。如果将spark.executor.cores设置得过高，可能会导致资源浪费和应用程序执行时间延长。
spark.executor.extraClassPath
spark.executor.extraJavaOptions
spark.executor.extraLibraryPath
spark.executor.heartbeat.maxFailures
spark.executor.heartbeatInterval
spark.executor.id
spark.executor.memory	spark.executor.memory是Apache Spark的一个配置选项，用于指定每个executor分配的内存大小。
	spark.executor.memory参数影响了Spark在executor上使用的内存量。它的大小决定了executor可以使用的总内存量。在Spark中，executor的内存被划分为几个部分，包括存储内存、执行内存和用户内存等。
	需要注意的是，spark.executor.memory并不是JVM堆内存（Heap Memory），而是Spark为executor分配的内存大小。
spark.executorEnv.JAVA_HOME
spark.executorEnv.project
spark.executorEnv.taskcode
spark.executorEnv.taskexectype
spark.hadoop.dfs.client.improve.small.read.key	spark.hadoop.dfs.client.improve.small.read.key 是 Apache Spark 配置文件中的一个参数，用于改善小文件读取的性能。
	在 Spark 中，当读取小文件时，通常会遇到性能问题。这是因为每个小文件的读取都需要建立单独的连接，这会导致大量的开销。为了解决这个问题，Spark 增加了这个配置项，可以让客户端在读取小文件时使用同一份连接。
	默认情况下，该配置项的值为 false，即不开启这个优化。如果你希望改善小文件的读取性能，可以将这个值设为 true。