Spark中什么是RDD,什么是算子
RDD(Resilient Distributed Dataset),弹性分布式数据集。
RDD理解图
RDD是Spark数据结构最基本的抽象化概念之一。
本质上 RDD是不存数据的,存的是计算逻辑,打个比方:
有一个流水线工厂里面有工人RDD1、RDD2、RDD3当一个工件下来时RDD1做的是flatMap()加工,做完之后,被加工后的工件传到RDD2那边做map()加工,之后再传给RDD3做一些其他加工。 直到工件加工完成 出货为止。。。
RDD采用这样的一种弹性分布式数据集当作临时结果,达到对数据的计算优化和高效处理
注:从前到后的加工顺序可以理解为 DAG有向无环图
什么是K,V格式的RDD?
- 如果
RDD
里面存储的数据都是二元组对象,那么这个RDD
我们就叫做K,V格式的RDD
。
哪里体现RDD的弹性(容错)?
partition
数量,大小没有限制,体现了RDD
的弹性</