什么是Spark RDD？(RDD的介绍与创建)

最新推荐文章于 2025-06-22 16:18:01 发布

叶域

最新推荐文章于 2025-06-22 16:18:01 发布

阅读量1.2k

点赞数 28

CC 4.0 BY-SA版权

分类专栏： spark 大数据文章标签： spark 大数据分布式

RDD: 弹性分布式数据集（Resilient Distributed Datasets）
核心概念：Spark的核心数据抽象。
通过对RDD的理解和使用，可以在分布式计算环境中高效地处理和计算大规模数据

分区（Partition）：每个任务处理一个分区。
计算函数（compute）：每个分区上都有compute函数，计算该分区中的数据。
依赖关系：RDD之间有一系列的依赖。
分区器（Partitioner）
- 决定数据（key-value）分配至哪个分区。
- 常见的分区器有Hash Partition和Range Partition。
优先位置列表：将计算任务分派到其所在处理数据块的存储位置。

Transformation（转换操作）
- Lazy操作：不会立即执行，只是记录操作，当触发Action时才会真正执行。
- 例如：map、filter、flatMap等。
Actions（动作操作）
- Non-lazy操作：立即执行，会触发所有相关Transformation的计算。
- 例如：count、collect、saveAsTextFile等。

这里用的是scala语言的maven项目

<!-- 导入 spark-core jar 包 -->
<dependency>
    <groupId>org.apache.spark

200万优质内容无限畅学