补充——spark RDD序列化和持久化

难以言喻wyy

已于 2023-07-10 22:02:39 修改

阅读量984

点赞数 1

文章标签： spark scala java

于 2023-04-12 16:16:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_53898747/article/details/130109813

版权

目录

闭包检查：

序列化方法和属性

Kryo序列化框架：

RDD持久化（RDD persistence）

RDD persist缓存

什么时候使用persist()?

RDD CheckPoint 检查点

缓存和检查点区别

RDD序列化

闭包检查：

从计算的角度来看，算子以外的代码都在Driver端执行，算子里面的代码都是在Executor端执行。那么在scala函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，也就意味着无法值给Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包中的对象是否可以进行序列化，这个操作我们称之为闭包检测。

序列化方法和属性

从计算的角度，算子以外的代码都是Driver端执行，算子里面的代码都是在Executor端执行。

Kryo序列化框架：

java的序列化能够序列化任何的类，但是比较重，比较繁杂，字节多，序列化后，对象的提交也比较大。Spark为了提升性能，开始使用Kryo框架机制。Kryo是Serializable的十倍。当RDD在shuffle数据时，简单数据类型，数组和字符串已经在spark内部使用Kryo来序列化。

注意：即使使用 Kryo 序列化，也要继承 Serializable 接口。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。