什么是RDD?
RDD叫做弹性分布式数据集,是Spark中基本的数据抽象,代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面元素可并行计算的集合。
一、我相信大家最疑惑的就是“什么是弹性分布式数据集”弹性就是:
存储的弹性:内存与磁盘的自动切换
容错的弹性:数据丢失可以自动恢复
计算的弹性:计算出错重试机制
分片的弹性:可根据需要重新分片。
二、什么是不可变:
简单来说就是创建一个RDD如果更改,并不是真正意义上的更改,只是又创建了一个新的RDD
三、可分区:
这个的意思我想我不需要解释,可分区的意思就是能分区
四、并行计算
学过线程的都知道什么是
以上只是简单了解一下,接下来我把官方的解释给大家拿出来
RDD的属性
- 一组分区(Partition),即数据集的基本组成单位;
- 一个计算每个分区的函数;
- RDD 之间的依赖关系;
- 一个 Partitioner,即 RDD 的分片函数;
- 一个列表,存储存取每个 Partiti