Spark小文件合并

最新推荐文章于 2024-09-04 09:32:12 发布

原创

最新推荐文章于 2024-09-04 09:32:12 发布 · 置顶 · 1.3w 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hive小文件 #hdfs #spark小文件

本文探讨了在Spark SQL中遇到的小文件问题及其危害，包括消耗HDFS资源和影响Hive计算速度。提出三种解决方案：1) 使用coalesce()和repartition()方法；2) 调整spark.sql.shuffle.partitions并行度；3) 创建额外任务专门合并小文件。通过实验发现，只有在加入宽依赖的情况下，调整并行度才能有效。最后，还提到了Hive中减少小文件的参数设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.问题描述

最近使用spark sql执行etl时候出现了，最终结果大小只有几百k，但是小文件一个分区有上千的情况。

危害：

hdfs有最大文件数限制
浪费磁盘资源（可能存在空文件）；
hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。

2.解决方法

方法一：通过spark的coalesce()方法和repartition()方法

val rdd2 = rdd1.coalesce(8, true) （true表示是否shuffle）
val rdd3 = rdd1.repartition(8)

说明：

coalesce：coalesce()方法的作用是返回指定一个新的指定分区的Rdd，
如果是生成一个窄依赖的结果，那么可以不发生shuffle，
分区的数量发生激烈的变化，计算节点不足，不设置true可能会出错。

repartition：coalesce()方法shuffle为true的情况。

但是由于使用的是同事直接写好的模块，改新增函数相对比较麻烦，所以作为后手。
方法二：降低spark并行度，即调节spark.sql.shuffle.partitions

比如之前设置的为100，按理说应该生成的文件数为100；
但是由于业务比较特殊，采用的大量的union all，且union all在spark中属于窄依赖，
不会进行shuffle，所以导致最终会生成（union all数量+1）*100的文件数。
如有10个union all，会生成1100个小文件。
这样导致降低并行度为10之后，执行时长大大增加，且文件数依旧有1