假设:
服务器是2vcore
master - local[5]
那么:
1. parallelize(list, numSlices=5)
分区数由numSlices参数决定,如果没有指定该参数,则由local[5]决定
2. textFile(文件路径, minpartitions=N)
如果没有指定minpartitions,则minpartitions=min(local[5], 2)
分区数量 = max(文件分片数量, minpartitions)
服务器配置与数据处理:分区策略详解
假设:
服务器是2vcore
master - local[5]
那么:
1. parallelize(list, numSlices=5)
分区数由numSlices参数决定,如果没有指定该参数,则由local[5]决定
2. textFile(文件路径, minpartitions=N)
如果没有指定minpartitions,则minpartitions=min(local[5], 2)
分区数量 = max(文件分片数量, minpartitions)
838
2217
8984

被折叠的 条评论
为什么被折叠?