spark内核揭秘-03-spark核心组件

最新推荐文章于 2025-02-20 06:45:12 发布

weixin_30527423

最新推荐文章于 2025-02-20 06:45:12 发布

阅读量145

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/stark-summer/p/4829819.html

本文介绍了 Spark 的核心组件及其工作原理。包括 SparkContext 初始化过程、内存管理、调度器的创建与启动等内容。还详细讲解了 Executor 的多线程执行方式及在 HDFS 或 HBase 上的数据读取机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark核心组件如下所示：

在SparkContext初始化的时候，会初始化一系列内容：

查看内存使用情况：

创建和启动scheduler：

集群核心组件中的Block tracker是用于block和partition对应关系的管理。

集群核心组件中的shuffle tracker是用于记录shuffle操作的过程细节。

从集群中也可以看出，Executor在执行任务的时候是采用多线程的方式执行的并能够在HDFS或者HBase等系统上读取数据。

而在实际的Driver Program运行的时候每个partition都会由一个task负责运行的

也就是说有多partition就会有多少task在运行，而这些task都是并发的运行在Executor中的。

版权声明：本文为博主原创文章，未经博主允许不得转载。

转载于:https://www.cnblogs.com/stark-summer/p/4829819.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。