RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,它是Spark中最基本、也是最重要的的数据模型。它由分区组成,每个分区被一个Spark的Worker从节点处理,从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式提供自动容错的功能,并且具有位置感知性调度和可伸缩的特性。通过RDD也提供缓存的机制,可以极大地提高数据处理的速度。
视频讲解如下:
Spark中的RDD |
---|
【赵渝强老师】Spark中的RDD |
一、RDD的组成
在WordCount示例中,每一步都是生成一个新的RDD用于保存这一步的结果。创建RDD也可以使用下面的方式:
scala> val myrdd = sc.parallelize(Array(1,2,