1.为什么需要RDD?
RDD(Resilient Distribute Datasets):弹性分布式数据集


2.RDD的五大特性
前三个是必须的,后面两个是可选的。

1.RDD是有分区的
RDD的分区是RDD数据存储的最小单位,一份RDD数据本质上被分成了很多分区。
分区是物理概念,RDD是逻辑上的概念,和列表字典一样。
2.计算方法会作用到每一个分区之上

3.RDD之间是有互相依赖关系的

4.Key- Value型的RDD可以有分区

5.RDD的分区规划,会尽量靠近数据所在的服务器

3.wordcount案例的RDD分析图


4.程序执行入口:SparkContext 对象

5.RDD的两种创建方式

1.并行化创建,使用parallelize()创建

2.读取文件创建,使用textFile()以及wholeTextFile()创建


6.RDD算子概念和分类
算子是什么:分布式集合对象上的API叫做算子
本地对象的API,叫做方法/函数
分布式对象的API,叫做算子
算子我们可以分成两类:

本文深入探讨了Spark中的核心概念——弹性分布式数据集(RDD),包括RDD的分区、计算特性和依赖关系。通过wordcount案例分析了RDD在实际操作中的运用,并介绍了创建RDD的两种方式:并行化创建和读取文件创建。此外,还阐述了RDD算子的概念和分类,为理解Spark的分布式计算提供了关键信息。
648





