RDD的Stage划分原理

原创已于 2023-04-29 17:03:17 修改 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

于 2023-04-29 17:02:37 首次发布

RDD是Spark的核心数据结构，表示不可变、可分区的分布式数据集。RDD支持转化和行动操作，采用惰性计算，允许数据缓存以提升性能。窄依赖允许流水线优化，而宽依赖需要全量join，形成阶段进行计算。DAG表示RDD间的依赖关系，用于调度优化。

1. 什么是RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark 中，对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala 中任意类型的对象，甚至可以包含用户自定义的对象。RDD 具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD 允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RDD 支持两种操作:transformation操作和action操作。RDD 的转化操作是返回一个新的RDD 的操作，比如map()和filter()，而action操作则是向驱动器程序返回结果或把结果写入外部系统的操作。比如count() 和first()。
Spark 采用惰性计算模式，RDD 只有第一次在一个行动操作中用到时，才会真正计算。Spark 可以优化整个计算过程。默认情况下，Spark 的RDD 会在你每次对它们进行行动操作时重新计算。