hdfs中的block是分布式存储的最小单元,每块都相等,虽然会浪费一些存储空间,但是也比较容易寻找到对应的数据。
Spark的Partiton是Spark弹性数据集RDD的最小单元,大小事不一样的,主要却全取决于算子
block位于存储空间,partition位于计算空间。
Spark的Partition和HDFS的Block有什么联系
于 2025-03-04 13:07:08 首次发布
hdfs中的block是分布式存储的最小单元,每块都相等,虽然会浪费一些存储空间,但是也比较容易寻找到对应的数据。
Spark的Partiton是Spark弹性数据集RDD的最小单元,大小事不一样的,主要却全取决于算子
block位于存储空间,partition位于计算空间。