32、Spark运行与配置全解析

web99

于 2025-11-19 10:41:16 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark实战精要文章标签： Spark 数据本地性内存调度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/web99/article/details/155478055

Spark实战精要专栏收录该内容

45 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Spark运行与配置全解析

1. 数据本地性考量

数据本地性指的是Spark会尝试将任务尽可能地安排在离数据存储位置近的地方执行。这会影响执行器的选择，与作业调度密切相关。

1.1 首选位置列表

Spark会为每个分区维护一个首选位置列表。对于基于HDFS数据的RDD（HadoopRDD）和缓存的RDD，Spark可以获取到分区数据所在的主机名或执行器信息，从而将计算移动到离数据更近的地方。
- 基于HDFS数据的RDD：通过Hadoop API从HDFS集群获取信息。
- 缓存的RDD：Spark自身会跟踪每个分区缓存所在的执行器。

1.2 数据本地性级别

Spark有五种数据本地性级别：
| 本地性级别 | 描述 |
| — | — |
| PROCESS_LOCAL | 在缓存分区的执行器上执行任务 |
| NODE_LOCAL | 在分区可用的节点上执行任务 |
| RACK_LOCAL | 如果集群中有机架信息（目前仅在YARN上），在与分区相同的机架上执行任务 |
| NO_PREF | 任务没有首选位置 |
| ANY | 如果其他情况都失败，作为默认选项 |

1.3 调度等待时间

当无法获取到具有最佳本地性的任务槽时，调度器会等待一段时间，然后尝试次优本地性的位置，以此类推。调度器在每个本地性级别等待的时间由 spark.locality.wait 参数决定，默认值为30秒。你还可以通过 spark.locality.wait.process

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。