Spark_分区、任务等概念总结

最新推荐文章于 2023-03-04 15:47:45 发布

原创

最新推荐文章于 2023-03-04 15:47:45 发布 · 3.3k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细梳理了Spark的分区数、任务数、核心数、工作节点数和执行器数之间的关系，以及Driver、Job和Stage的概念。介绍了Spark如何将逻辑图转化为物理执行计划，任务与数据分布的执行过程，以及Executor的组成。强调了Task执行的并发度取决于Executor数量和核心数，RDD分区数目决定了Task数目，优化RDD分区有助于提高并行度和效率。同时，解释了Driver程序、Job和Stage在Spark计算流程中的角色和作用。

Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

这里写图片描述

spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时，它会把这个逻辑图转换为物理执行计划，然后将逻辑计划转换为一系列的步骤（stage），每个步骤由多个任务组成。

步骤组成任务、数据组成任务。所以数据和对数据的操作都封装在任务里面了？数据是分布的，那么步骤的执行是什么过程？因为是流水线操作，所以对于每一个工作节点，都有一份步骤，然后根据步骤一步步计算？？？

Spark文档中使用驱动器节点和执行器节点的概念来描述执行Spark的进程

主节点（master）和工作节点（worker）的概念被用来分别表述集群管理器中的中心化部分和分布式部分。

输入以多个文件的形式存储在HDFS上，每个File都包含了很多块，成为Block

如果输入只有一个文件存储在Hbase里，也是按块大小分布存储的吗？

以块形式存储的文件可以跨节点嘛？

Spark读取文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并为一个输入分片，成为InputSplit。InputSplit不能跨文件。

随后为这些输入分片生成具体的Task</

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。