【赵渝强老师】Spark中的RDD

赵渝强老师

已于 2025-02-06 11:08:04 修改

阅读量1.5k

点赞数 42

CC 4.0 BY-SA版权

分类专栏：大数据技术文章标签： spark 大数据分布式

于 2024-08-21 10:32:40 首次发布

本文链接：https://blog.youkuaiyun.com/zhaoyuqiang/article/details/141386382

在这里插入图片描述

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，它是Spark中最基本、也是最重要的的数据模型。它由分区组成，每个分区被一个Spark的Worker从节点处理，从而支持分布式的并行计算。RDD通过检查点Checkpoint的方式提供自动容错的功能，并且具有位置感知性调度和可伸缩的特性。通过RDD也提供缓存的机制，可以极大地提高数据处理的速度。

视频讲解如下：

Spark中的RDD

【赵渝强老师】Spark中的RDD

一、RDD的组成

在WordCount示例中，每一步都是生成一个新的RDD用于保存这一步的结果。创建RDD也可以使用下面的方式：

scala> val myrdd = sc.parallelize(Array(1,2,

最低0.47元/天解锁文章

200万优质内容无限畅学