RDD是什么

万里长江横渡

已于 2022-12-04 16:55:14 修改

阅读量2.7k

点赞数

分类专栏： Spark 文章标签： spark

于 2022-03-21 18:43:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44870066/article/details/123642790

版权

Spark 专栏收录该内容

7 篇文章

订阅专栏

RDD是什么

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
➢ 弹性
存储的弹性：内存与磁盘的自动切换；
容错的弹性：数据丢失可以自动恢复；
计算的弹性：计算出错重试机制；
分片的弹性：可根据需要重新分片。
➢ 分布式：数据存储在大数据集群不同节点上
➢ 数据集：RDD 封装了计算逻辑，并不保存数据
➢ 数据抽象：RDD 是一个抽象类，需要子类具体实现
➢ 不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑

RDD分类

RDD可以分为Transformation转换算子和action行动算子

【Transformation】转换算子
返回的是一个新的RDD，所有的Transformation函数都是封装的RDD的转换方式，函数都是不会立即执行，返回值时一个新的RDD，需要Action行动算子触发计算，如map，flatMap

【Action】行动算子
Action是行动算子，触发RDD的计算，返回值不是RDD，实际开发中一般返回值是其他类型或者无返回值。所有的action函数都是立即执行，比如count,first,collect,take等

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。