JX8NET 教你用 Spark Resilient Distributed Dataset-优快云博客

本文介绍了Spark中的核心概念——弹性分布式数据集（RDD）。详细解释了RDD的五个主要特征，包括分片列表、计算函数、依赖列表、分区策略及分片优先计算位置。通过本文，读者可以了解RDD的基本原理及其在Spark并行计算中的作用。

来源：JX8NET 教你用 Spark Resilient Distributed Dataset

JX8NET 教你用 Spark Resilient Distributed Dataset，JX8NET 小游戏网 专注于各种网络程序。
1、什么是RDD？上一章讲了Spark提交作业的过程，这一章我们要讲RDD。简单的讲，RDD就是Spark的input，知道input是啥吧，就是输入的数据。
RDD的全名是Resilient Distributed Dataset，意思是容错的分布式数据集，每一个RDD都会有5个特征：
1、有一个分片列表。就是能被切分，和hadoop一样的，能够切分的数据才能并行计算。
2、有一个函数计算每一个分片，这里指的是下面会提到的compute函数。
3、对其他的RDD的依赖列表，依赖还具体分为宽依赖和窄依赖，但并不是所有的RDD都有依赖。
4、可选：key-value型的RDD是根据哈希来分区的，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce。
5、可选：每一个分片的优先计算位置（preferred locations），比如HDFS的block的所在位置应该是优先计算的位置。
对应着上面这几点，我们在RDD里面能找到这4个方法和1个属性，别着急，下面我们会慢慢展开说这5个东东。