Insert Overwrite 进行hive或impala小文件合并后文件数量不是1

最新推荐文章于 2025-10-03 18:00:00 发布

原创最新推荐文章于 2025-10-03 18:00:00 发布 · 3.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#hive #impala

小甜点同时被 3 个专栏收录

15 篇文章

订阅专栏

Impala

5 篇文章

订阅专栏

hive

1 篇文章

订阅专栏

本文探讨了HDFS中因大量小文件导致的性能下降问题，通过调整Hive和Impala参数实现小文件合并，包括设置reduce任务数量和启用文件合并功能，确保输出单一文件，提升系统效率。

HDFS的表里面，按天分区，每个分区都有很多的小文件，长此以往必然会导致性能的下降。所以我们在保持原来的业务逻辑不变，增加每日跑批来合并分区内的小文件。

刚开始我是直接Impala执行Insert overwrite ，想合并某一天分区内的4份文件, 发现分区内部的文件数还是4个，我就纳闷，以为我记错了 overwrite 的执行原理，然后使用Hive 进行 insert overwrite，结果文件数变成了2个，我就纳闷了。。
然后想到可能是因为写线程的问题。于是网上搜怎么配置这些参数，问题就解决了。Impala 的那个配置是从官网挨个实验的，当然，这些设置会影响执行sql的性能，但是能保证只生成一份文件，怎么取舍自己考虑。

Hive 的方法：

set mapred.reduce.tasks=1;
set hive.merge.mapredfiles=true;
insert overwrite table xx.xxx
partition (year=2020,month=4,day=1)
select
	fields...
from xx.xxx
where year=2020
and month=4
and day=3

set mapred.reduce.tasks=1;
set hive.merge.mapredfiles=true;
增加这两个配置是为了保持输出的文件只有一个。为什么要这么配置可以想想MapReduce 的原理，我们要保证最后只有一个reduce。

Impala 同样，但是需要设置的参数有点不同，还有sql 的写法也略有差异

set NUM_NODES=1;

insert overwrite xx.xx(
    	fields...
)
partition (idn_year={idn_year},idn_month={idn_month},idn_day={idn_day})
    select 
    	fields...
from x.xx
where 
    idn_year={idn_year} 
    and idn_month={idn_month}
    and idn_day={idn_day}