# 问题总结。
# 相当于之前是在每个日期进行【随机划分】20个分区,还要进行cuid的分区,总nodes=20*num_cuid;现在改完后,应该是每个日期【按照cuid划分】20个分区,每个分区内尽可能的是相同cuid放在一起,总nodes=20。
# 之前代码:
data.repartition(args.num_partition).write.parquet(path=args.save_afs, partitionBy='cuid', mode='overwrite')
# 修改后:
data.repartition(args.num_partition, *['cuid']).write.parquet(path=args.save_afs, mode='overwrite')
spark写入分区问题
于 2025-02-17 17:26:12 首次发布