RDD介绍

最新推荐文章于 2025-11-23 18:41:31 发布

原创最新推荐文章于 2025-11-23 18:41:31 发布 · 654 阅读

CC 4.0 BY-SA版权

文章标签：

6 篇文章

订阅专栏

RDD（Resilient Distributed Dataset）是 Spark 的核心数据结构，代表一个不可变、分区的元素集合，可以在集群中并行操作。RDD 是 Spark 实现高效分布式计算的基础。

不可变性（Immutable）：RDD 一旦创建，就不能被修改。所有的转换操作都会生成一个新的 RDD。
分区（Partitioned）：RDD 被分成多个分区，分布在集群的不同节点上。每个分区可以在集群的不同节点上并行处理。
容错性（Fault-tolerant）：RDD 通过 lineage（血统）信息实现容错。如果某个分区丢失，Spark 可以根据 lineage 信息重新计算该分区。

RDD 可以通过以下方式创建：

从集合创建：

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1, 2, 3, 4, 5));

从外部存储创建：

JavaRDD<String> rdd = sc.textFile("hdfs://path/to/file");

RDD 支持两种类型的操作：转换操作（Transformations）和行动操作（Actions）。

3.1 转换操作（Transformations）
转换操作是惰性的，只有在行动操作触发时才会执行。常见的转换操作包括：

map：对每个元素应用函数。

JavaRDD<Integer> rdd2 = rdd.map(x -> x * 2);

filter：过滤符合条件的元素。

JavaRDD<Integer> rdd2 = rdd.filter(x -> x > 2);

flatMap：对每个元素应用函数并展平结果。

JavaRDD<Integer> rdd2 = rdd.flatMap(x -> Arrays.asList(x, x * 2).iterator());

union：合并两个 RDD。

JavaRDD<Integer> rdd3 = rdd1.union(rdd2);

distinct：去重。

JavaRDD<Integer> rdd2 = rdd.distinct();

3.2 行动操作（Actions）
行动操作会触发实际计算并返回结果。常见的行动操作包括：

count：返回 RDD 中的元素数量。
```
long count = rdd.count();
```
collect：返回 RDD 中的所有元素。
```
List<Integer> data = rdd.collect();
```
reduce：通过函数聚合元素。
```
int sum = rdd.reduce((x, y) -> x + y);
```
take：返回前 n 个元素。
```
List<Integer> top3 = rdd.take(3);
```
saveAsTextFile：将 RDD 保存为文本文件。
```
rdd.saveAsTextFile("hdfs://path/to/output");
```

为了减少重复计算，可以将 RDD 持久化到内存或磁盘。

persist：指定存储级别。

rdd.persist(StorageLevel.MEMORY_ONLY());

RDD 之间的依赖关系分为窄依赖（Narrow Dependency）和宽依赖（Wide Dependency）。

检查点将 RDD 持久化到可靠的存储系统（如 HDFS），用于切断 lineage 信息，减少恢复时间。

设置检查点：

sc.setCheckpointDir("hdfs://path/to/checkpoint");
rdd.checkpoint();

RDD 通过 lineage 信息实现容错。Lineage 记录了 RDD 的转换操作历史。如果某个分区丢失，Spark 可以根据 lineage 信息重新计算该分区。

通过以上内容，你可以深入理解 RDD 的核心概念和操作，并掌握如何在实际应用中使用 RDD 进行高效的数据处理。