RDD基础与执行原理

最新推荐文章于 2024-06-08 00:39:27 发布

Jerry Hong

最新推荐文章于 2024-06-08 00:39:27 发布

阅读量166

点赞数

分类专栏： Spark 文章标签：大数据 spark 分布式

版权

14 篇文章

订阅专栏

RDD（Resilient Distributed Dataset）是Spark的核心数据模型，表示不可变、可分区的并行数据集。RDD具备弹性、容错和计算能力，通过分区列表、计算函数和依赖关系实现分布式计算。在执行时，Spark将RDD的计算逻辑拆分为任务，分配到Yarn集群的计算节点上执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【Spark Core篇】RDD基础与执行原理

RDD 数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。

Spark 在计算时，是使用分区函数对每一个分区进行计算

RDD 是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个 RDD 建立依赖关系

当数据为 KV 类型数据时，可以通过设定分区器自定义数据的分区

计算数据时，可以根据计算节点的状态选择不同的节点位置进行计算

从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。
Spark 框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计算。最后得到计算结果。
RDD 是 Spark 框架中用于数据处理的核心模型，在 Yarn 环境中，RDD的工作原理:
1. 启动 Yarn 集群环境
2. Spark 通过申请资源创建调度节点和计算节点
3. Spark 框架根据需求将计算逻辑根据分区划分成不同的任务
4. 调度节点将任务根据计算节点状态发送到对应的计算节点进行计算