前言
之前的文章主要介绍Spark基础知识,例如集群角色、Spark集群运行流程等,接下来会进一步讨论Spark相对核心的知识,让我们拭目以待,同时也期待各位的精彩留言!
一、RDD简介
RDD称为弹性分布式数据集,是Spark中最基本的数据抽象,其为一个不可变、可分区、元素可并行计算的集合;RDD中的数据是分布式存储,可用于并行计算,同时,RDD中的数据可以存储在内存或者磁盘中,这就是“弹性”的意义所在。
二、RDD的特性
RDD有5大特性,前三个特性是每个RDD必备的,而后面两个特性是可选的,特性分别为:
(1)RDD数据集可分区;
(2)一个函数会作用在RDD的每一个分区上;
(3)RDD间存在依赖关系,RDD的每一次转换都会生成一个全新的RDD,新旧RDD间存在依赖关系,当分区的部分数据丢