Spark2 Dataset持久化存储级别StorageLevel

最新推荐文章于 2024-10-10 20:18:50 发布

weixin_33949359

最新推荐文章于 2024-10-10 20:18:50 发布

阅读量142

点赞数

CC 4.0 BY-SA版权

文章标签：大数据

原文链接：http://www.cnblogs.com/wwxbi/p/6101842.html

本文介绍了Apache Spark中数据缓存的不同级别及其应用场景。详细对比了MEMORY_ONLY、MEMORY_ONLY_2等八种缓存策略的空间使用情况及CPU时间消耗，并解释了如何通过API调用进行数据的持久化和缓存清除。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import org.apache.spark.storage.StorageLevel

// 数据持久缓存到内存中
//data.cache()
data.persist()

// 设置缓存级别
data.persist(StorageLevel.DISK_ONLY)

// 清除缓存
data.unpersist
//data.unpersist(blocking=true)

级别	使用空间	CPU时间	是否在内存中	是否在磁盘上	备注
MEMORY_ONLY	高	低	是	否
MEMORY_ONLY_2	高	低	是	否	数据存2份
MEMORY_ONLY_SER	低	高	是	否	数据序列化
MEMORY_ONLY_SER_2	低	高	是	否	数据序列化，数据存2份
MEMORY_AND_DISK	高	中等	部分	部分	如果数据在内存中放不下，则溢写到磁盘
MEMORY_AND_DISK_2	高	中等	部分	部分	数据存2份
MEMORY_AND_DISK_SER	低	高	部分	部分
MEMORY_AND_DISK_SER_2	低	高	部分	部分	数据存2份
DISK_ONLY	低	高	否	是
DISK_ONLY_2	低	高	否	是	数据存2份
NONE
OFF_HEAP

转载于:https://www.cnblogs.com/wwxbi/p/6101842.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。