【Spark】RDD缓存机制

卜塔

已于 2023-04-13 23:12:13 修改

阅读量806

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签：缓存 spark 大数据

于 2023-04-12 11:42:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/NextAction/article/details/130102783

Spark 专栏收录该内容

6 篇文章

订阅专栏

RDD缓存可以提高数据处理效率，当数据被多次使用或计算复杂时适用。cache和persist是缓存方法，后者支持更多缓存级别，如内存、磁盘。缓存不会立即执行，而是在action操作时触发。清除缓存可通过unpersist或程序结束。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. RDD缓存机制是什么？

把RDD的数据缓存起来，其他job可以从缓存中获取RDD数据而无需重复加工。

2. 如何对RDD进行缓存？

有两种方式，分别调用RDD的两个方法：persist 或 cache。
注意：调用这两个方法后并不会立刻缓存，而是有action算子触发时才会缓存。

3. persist 和 cache有什么区别？

二者的区别在于缓存级别上：
persist有多种缓存方式，如缓存到内存，缓存到磁盘等。
cache只缓存到内存，且实际是调用了persist方法。
两种方法的源码及缓存RDD的缓存级别如下：
在这里插入图片描述

4. 何时需要缓存RDD？

有两种情况：

RDD被后续多个job用到；
RDD的计算过程复杂。

5. 如何清除RDD缓存？

有两种方式：

应用程序结束后，缓存自动清除；
调用unpersist方法，源码如下：

–The End–

博客等级

码龄9年

318
原创

214
点赞

817
收藏

135
粉丝

关注

私信

热门文章

分类专栏

缺陷检测
Oracle 77篇
IDEA 1篇
PL/SQL 14篇
SQL 30篇
PostgreSQL 29篇
MySQL 4篇
Python 36篇
Shell 5篇
Java 2篇
Kettle 9篇
Hadoop 16篇
Hive 23篇
HBase 2篇
Flume 2篇
Spark 6篇
Kafka 7篇
Sqoop 2篇
Flink
Linux 26篇
数据仓库 6篇
数据分析 5篇
Excel 8篇
Maven 1篇
C 1篇
汇编语言 1篇

展开全部收起

上一篇：: 【Hive】解析字符串(类似array嵌套map结构)

下一篇：: 【Spark】RDD转换DataFrame（反射机制）

最新评论

【Kettle】创建资源库用户
Vincent_201707: 搜索资源库是灰的呢？admin/admin guest/guest 都试了，都不行，连接测试都是通的，就是这过不去
【Hive】自定义函数从编写到应用的整个流程（以UDF为例）
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【Hive】自定义函数从编写到应用的整个流程（以UDF为例）
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【SQL】SQL语句执行顺序
Greyscarf: ，我记得是 form On .join where.....
【SQL】SQL语句执行顺序
优快云-Ada助手: 推荐 MySQL入门技能树：https://edu.youkuaiyun.com/skill/mysql?utm_source=AI_act_mysql

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。