Spark 持久化（cache和persist的区别）

董可伦

已于 2022-07-23 11:03:03 修改

阅读量2.7w

点赞数 8

分类专栏： scala Spark 文章标签： spark cache persist 持久化

于 2018-06-20 10:18:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dkl12/article/details/80742498

版权

Spark 同时被 2 个专栏收录

78 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

16 篇文章

订阅专栏

本文详细介绍了Spark中RDD和DataFrame的持久化机制，包括cache和persist的使用，以及不同存储级别的选择。重点讨论了如何在内存使用率和CPU效率间做出平衡，提供了选择存储级别的建议，并通过代码测试验证了缓存效果。同时提醒读者cache和persist的正确使用时机。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun

1、RDD 持久化

Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓存是迭代算法和快速的交互式使用的重要工具。

RDD 可以使用 persist() 方法或 cache() 方法进行持久化。数据将会在第一次 action 操作时进行计算，并缓存在节点的内存中。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。

在 shuffle 操作中（例如 reduceByKey），即便是用户没有调用 persist 方法，Spark 也会自动缓存部分中间数据。这么做的目的是，在 shuffle 的过程中某个节点运行失败时，不需要重新计算所有

了解本专栏

超级会员免费看

博客等级

码龄11年

大数据领域优质创作者

博客专家认证

168
原创

1199
点赞

2076
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

QQ 截图工具独立版安装使用
AG南山: 嘶~，我可以自己提取吗？不是官方的软件怕后门
QQ 截图工具独立版安装使用
Ruci_Shenhao: 提示“相关环境初始化失败”是怎么回事呢？
QQ 截图工具独立版安装使用
董可伦: 好吧，我习惯ctrl+alt+a
QQ 截图工具独立版安装使用
YuuuuuCheng: 快捷键设置不能Shift+X
Flink用户自定义连接器（Table API Connectors）学习总结
W.u: 我调接口能获取到，flink 创建表语句也是没问题，但是我在执行select 的时候，他还是这样，用的就是你的建表语句，ip那些我就不贴了。 {"id":1,"name":"wyg"} create table http_get( id int, name string ) flink 的日志报错 Caused by: java.lang.RuntimeException: java.io.IOException: Failed to deserialize JSON '{"id":1,"name":"wyg"}'. at com.dkl.flink.connector.http.HttpSourceFunction.run(HttpSourceFunction.java:70)

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董可伦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。