RDD持久化

最新推荐文章于 2023-06-15 13:46:28 发布

淅淅沥沥的熙

最新推荐文章于 2023-06-15 13:46:28 发布

阅读量192

点赞数

分类专栏： rdd持久化文章标签： rdd持久化存储级别

0 篇文章

订阅专栏

本文详细介绍了Apache Spark中各种存储级别的特点及其应用场景。包括MEMORY_ONLY、MEMORY_AND_DISK等在内的多个存储选项，帮助开发者根据任务需求选择合适的存储策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对应的存储级别以及含义如下：

Storage Level	Meaning
MEMORY_ONLY	将RDD作为非序列化的Java对象存储在jvm中。如果RDD不适合存在内存中，一些分区将不会被缓存，从而在每次需要这些分区时都需重新计算它们。这是系统默认的存储级别。
MEMORY_AND_DISK	将RDD作为非序列化的Java对象存储在jvm中。如果RDD不适合存在内存中，将这些不适合存在内存中的分区存储在磁盘中，每次需要时读出它们。
MEMORY_ONLY_SER	将RDD作为序列化的Java对象存储（每个分区一个byte数组）。这种方式比非序列化方式更节省空间，特别是用到快速的序列化工具时，但是会更耗费cpu资源—密集的读操作。
MEMORY_AND_DISK_SER	和MEMORY_ONLY_SER类似，但不是在每次需要时重复计算这些不适合存储到内存中的分区，而是将这些分区存储到磁盘中。
DISK_ONLY	仅仅将RDD分区存储到磁盘中
MEMORY_ONLY_2,MEMORY_AND_DISK_2,etc.	和上面的存储级别类似，但是复制每个分区到集群的两个节点上面
OFF_HEAP (experimental)	以序列化的格式存储RDD到Tachyon中。相对于MEMORY_ONLY_SER，OFF_HEAP减少了垃圾回收的花费，允许更小的执行者共享内存池。这使其在拥有大量内存的环境下或者多并发应用程序的环境中具有更强的吸引力。