
spark
手提青灯觅佳人
这个作者很懒,什么都没留下…
展开
-
Spark shuffle的两个调优参数
# 文件输出流内存缓冲区大小 默认32k 增加可以可以减少创建shuffle文件时候进行磁盘搜索和系统调用次数,建议64kspark.shuffle.file.buffer shuffle# 拉取的数据量大小 默认48m 增加可以减少reduce拉取数据的次数 建议96mspark.reducer.maxSizeInFilght reducetask ...原创 2021-12-27 10:32:11 · 725 阅读 · 0 评论 -
spark查看df中分区号与对应分区的数据量
frame.rdd .mapPartitionsWithIndex{case (i,rows) => Iterator((i,rows.size))} .toDF("partition_number","number_of_records") .show()查询结果如下原创 2021-11-01 15:24:29 · 1586 阅读 · 0 评论