Spark-SQL常用调优参数汇总

最新推荐文章于 2025-07-15 00:10:38 发布

原创

最新推荐文章于 2025-07-15 00:10:38 发布 · 3.7k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#spark #性能调优 #参数

本文汇总了Spark SQL在日常工作中常用的性能调优参数，包括其含义和作用，帮助优化查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要是日常工作的积累，主要是简单罗列了常见的spark SQL的参数及其含义。

#Job ID /Name
spark.app.name=xxx

#yarn 进行调度，也可以是mesos，yarn，以及standalone

#一个spark application，是一个spark应用。一个应用对应且仅对应一个sparkContext。每一个应用，运行一组独立的executor processes。一个应用，可以以多线程的方式提交多个作业job。spark可以运行在多种集群管理器上如：mesos，yarn，以及standalone，每种集群管理器都会提供跨应用的资源调度策略。
spark.master=yarn

#激活外部shuffle服务。服务维护executor写的文件，因而executor可以被安全移除。
#需要设置spark.dynamicAllocation.enabled 为true，同事指定外部shuffle服务。
#对shuffle来说，executor现将自己的map输出写入到磁盘，然后，自己作为一个server，向其他executor提供这些map输出文件的数据。而动态资源调度将executor返还给集群后，这个shuffle数据服务就没有了。因此，如果要使用动态资源策略，解决这个问题的办法就是，将保持shuffle文件作为一个外部服务，始终运行在spark集群的每个节点上，独立于应用和executor
spark.shuffle.service.enab