RDD详解_1

最新推荐文章于 2024-05-03 11:33:35 发布

置顶一个程序员的自我修炼

最新推荐文章于 2024-05-03 11:33:35 发布

阅读量725

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/crazy246/article/details/79912335

版权

Spark 专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了Spark中的关键组件RDD，包括其弹性、分布式和数据集的特性。RDD是弹性分布式数据集，当内存不足时，数据会自动在内存和磁盘之间切换。分布式特性体现在数据在多台机器上的存储，与Task的一一对应。数据集不仅包含数据，还记录了操作和血缘关系，实现容错性。RDD依赖关系分为窄依赖和宽依赖，shuffle操作可能导致数据倾斜。算子分为transformation和action，transformation是懒加载，action触发计算。RDD缓存提高效率，支持不同级别的缓存策略。下篇将介绍RDD的实际操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天讲的是RDD。RDD是个相当抽象的概念，它是一个逻辑概念，并不是很好理解，但它确实整个spark里的一个非常核心的东西，甚至不夸张的讲，就通过RDD这个概念就能把spark整个底层机制给串起来。

RDD, 英文名：residenta distributed dataset，弹性分布式数据集。下面，就是展示我语文功底的时候了。就分析这个词，就让你知道RDD的特性。

弹性分布式数据集

1.弹性究竟多Q弹呢？正常情况下，数据是存放到内存里的，但是如果说内存放不下这么多数据时，这时候就会写到磁盘。RDD的这种自动进行内存和磁盘之间权衡和切换的机制，就是RDD的弹性的特点所在。对用户来说是透明的。

2.分布式

简单说就是数据存放到不同机器上，1个Rdd=多个Partition，Parition就是分区，这个分区其实是个非常重要的概念，为什么这么说呢？Paritition本质上只是一部分数据，它和Task是一一对应的，task在提交的时候又有什么依据呢？其实又跟这个有关系

task在分配的时候又是依据什么算法分配的？这里面又涉及到数据本地优先原则，所以我一直强调说分布式在这里不可忽视。

3.数据集

数据集这个概念也是相当有意思，你以为就是简单的一堆数据吗？答案是否定，RDD可以理解为“数据+对数据操作”，RDD的基本单位是partition，以及每个分片的操作函数，也就是算子。当然了，RDD还“记录”着自身的血缘关系，对parent RDD的依赖，官方叫“lineage”。仅仅这么简单吗？这涉及到RDD的容错性，当某个节点挂掉了，这时候数据就丢失了，怎么办？spark程序挂掉了？那这也太low了，RDD是有很强的容错性的，当它发现自己的数据丢失了以后，会自动从自己来源的数据进行重计算，重新获取自己这份数据，这就是“血缘关系”。

上面说了算子这个概念，在讲算子之前，我们先来讲RDD的依赖关系：

RDD之间的依赖关系可以分为两类，即：

窄依赖（narrow dependencies）：子RDD的每个分区依赖于常数个父分区（即与数据规模无关），也可以理解为没有触发shuffle。
宽依赖（wide dependencies）：子RDD的每个分区依赖于所有父RDD分区。也可以理解为触发了shuffle。例如，map产生窄依赖，而join则是宽依赖（除非父RDD被哈希分区）。

重点是shuffle操作，这个是个非常重要的点，数据倾斜也就是反生在这个过程。DAGScheduler就是根据是否发生宽依赖来切分stage。

算子分成两类：transformation, action