spark 的 repartition

Code_LT

已于 2023-04-20 15:41:58 修改

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark sql 大数据

于 2023-04-20 09:40:32 首次发布

原文链接：https://juejin.cn/s/spark%20sql%20repartition%20by%20column

40 篇文章

订阅专栏

Spark提供多种分区方法，如repartition、coalesce和repartitionByRange等，用于优化并行处理和数据读取速度。在SparkSQL中，`repartitionByColumn`允许根据列值进行分区，以提升作业性能。不过，过度分区可能反而降低效率，需谨慎调整。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark分区是一种将数据分割到多个分区的方法，这样您就可以并行地在多个分区上执行转换，从而更快地完成作业。还可以将已分区的数据写入文件系统(多个子目录)，以便下游系统更快地读取数据。

Spark有几种分区方法来实现并行性，可以根据需要选择使用哪种分区方法。

PARTITIONING METHODS (SCALA)	说明	提供类
repartition(numPartitions: Int)	Uses RoundRobinPartitioning	DataFrame
repartition(partitionExprs: Column*)	Uses HashPartitioner	DataFrame
repartition(numPartitions: Int, partitionExprs: Column*)	partition = hash(partitionExprs) % numPartitions	DataFrame
coalesce(numPartitions: Int)	Use only to reduce the number of partitions.	DataFrame
repartitionByRange(partitionExprs : Column*)	Uses rangepartitioning. Ideal to use on numeric columns.	DataFrame
repartitionByRange(numPartitions: Int, partitionExprs: Column*)		DataFrame
partitionBy(colNames: String*)	Use to write the data into sub-folder	DataFrameWriter