什么是RDD以及如何创建RDD

最新推荐文章于 2025-08-04 20:28:59 发布

dian张

最新推荐文章于 2025-08-04 20:28:59 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/u013086392/article/details/78677045

spark 专栏收录该内容

21 篇文章

订阅专栏

本文介绍了Spark的核心概念——RDD（弹性分布式数据集），包括其五个主要特性：分片列表、分片计算函数、依赖列表、可选分区器以及最佳计算位置。此外还探讨了创建RDD的三种方式：从集合中创建、从外部存储创建以及从其他RDD创建。

RDD全称Resilient Distributed DataSets，弹性的分布式数据集。是Spark的核心内容。
RDD是只读的，不可变的数据集，也拥有很好的容错机制。他有5个主要特性
- A list of partitions 分片列表，数据能为切分才好做并行计算
- A function for computing each split 一个函数计算一个分片
- A list of dependencies on other RDDs 对其他RDD的依赖列表
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hashpartitioned)
RDD 可选的，key-value型的RDD，根据hash来分区
- Optionally, a list of preferred locations to compute each split on (e.g. block
locations for an HDFS file) 可选的，每一个分片的最佳计算位置 RDD是Spark所有组件运行的底层系统，RDD是一个容错的，并行的数据结构，它提供了丰富的数据操作和API接口

在Spark中创建RDD的创建方式大概可以分为三种：
从集合中创建RDD:
　　而从集合中创建RDD，Spark主要提供了两中函数：parallelize和makeRDD
从外部存储创建RDD:
从其他RDD创建: