RDD的partition通俗易懂的介绍

最新推荐文章于 2024-11-20 18:46:12 发布

转载最新推荐文章于 2024-11-20 18:46:12 发布 · 1.2k 阅读

文章标签：

#spark #rdd #partition #分区

Spark 专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了弹性分布式数据集（RDD）的概念，解释了其弹性与分布式特性，并详细分析了RDD在Spark中的分区机制与数据持久化策略，强调了合理调整分区数的重要性。

RDD是什么?弹性分布式数据集。
弹性:并不是指他可以动态扩展，而是血统容错机制。
分布式:顾名思义，RDD会在多个节点上存储，就和hdfs的分布式道理是一样的。hdfs文件被切分为多个block存储在各个节点上，而RDD是被切分为多个partition。不同的partition可能在不同的节点上。在spark读取hdfs的场景下，spark把hdfs的block读到内存就会抽象为spark的partition。至于后续遇到shuffle的操作，RDD的partition可以根据Hash再次进行划分(一般pairRDD是使用key做Hash再取余来划分partition）。再spark计算末尾，一般会把数据做持久化到hive，hbase，hdfs等等。我们就拿hdfs举例，将RDD持久化（缓存）到hdfs上，RDD的每个partition就会存成一个文件，如果文件小于128M，就可以理解为一个partition对应hdfs的一个block。反之，如果大于128M，就会被且分为多个block，一个partition就会对应多个block。鉴于上述partition大于128M的情况，在做sparkStreaming增量数据累加时一定要记得调整RDD的分区数。假设，第一次保存RDD时10个partition，每个partition有140M。那么该RDD保存在hdfs上就会有20个block，下一批次重新读取hdfs上的这些数据，RDD的partition个数就会变为20个。再后续有类似union的操作，导致partition增加，但是程序有没有repartition或者进过shuffle的重新分区，这样就导致这部分数据的partition无限增加，这样一直下去肯定是会出问题的。所以，类似这样的情景，再程序开发结束一定要审查需不需要重新分区。

转自链接：https://www.jianshu.com/p/3e79db80c43c