hive任务 处理小文件合并的参数配置

Hive小文件合并参数详解与配置
本文详细介绍了在Hive中处理小文件问题的重要性,包括小文件产生的原因及其对HDFS存储和Hive任务性能的影响。文章重点讨论了如何通过配置Hive的输出端参数来合并小文件,如启用不同类型的作业的小文件合并功能,并设置了相关参数以优化文件大小和数量,以提升集群效率。

hive 输出端 小文件合并 参数配置

一. 小文件产生

使用hive过程中经常会遇到小文件问题:
①,在执行插入数据操作过程中,可能会产生小文件;
②,map-only作业,可能会产生小文件;
③,map-reduce作业,每个reduce输出一个文件,可能产生小文件

二. 小文件影响

1、 hdfs存储:存储过多小文件会产生大量元数据,会增加NameNode占有的空间,影响集群健康和拓展
2、 hive任务:默认情况下,hive输入端的处理每个小文件会启用一个map,一个map启用一个JVM去执行,启用map和JVM过程资源占用比例相对提高,影响性能。

三. 小文件处理

1、输入端:如果执行任务前,存在小文件,在执行map前进行小文件合并,通过设置参数

① set mapred.max.split.size=256000000;
设置:每个Map最大输入大小,这个值决定了合并后文件的数量;
② set mapred.min.split.size.per.node=100000000;
设置:一个节点上split的至少的大小,这个值决定了多个DataNode上的文件是否需要合并;
③ set mapred.min.split.size.per.rack=100000000;
设置:一个交换机下split的至少的大小,这个值决定了多个交换机上的文件是否需要合并;
④ set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
设置:输入端map合并小文件。

2、输出端:通过输出端小文件合并,减少产生的小文件数量。

① set hive.merge.mapfiles=true;
设置:启用小文件合并 - Map-Only作业,默认true;
② set hive.merge.mapredfiles=true;
设置:启用小文件合并 - Map-Reduce作业,默认false;
③ hive.merge.size.per.task=268534456;
设置:合并后所需每个文件的大小,默认256MB;这个数值是个约数,合并后文件大小会有上下浮动。
④ set hive.merge.smallfiles.avgsize=16777216;
设置:小文件平均大小合并阈值,默认16MB;
⑤ set hive.merge.sparkfiles=true;
设置:启用小文件合并 - Spark 作业,默认false;
⑥ set hive.merge.tezfiles=true;
设置:启用小文件合并 - Tez 作业,默认false;

Hive中,为了有效合并小文件,可以通过调整一系列参数来优化MapReduce任务的输出。这些参数主要控制在Map-only或Map-Reduce任务结束后是否执行文件合并,并且可以指定合并后的文件大小以及触发合并的阈值。 ### 参数设置 #### 输入合并 如果希望在输入阶段就进行文件的合并操作,可以启用`CombineHiveInputFormat`以减少Map任务的数量。通过以下参数控制不同层级上的文件合并: - `mapred.max.split.size`:决定单个节点上合并后文件的最大大小,较大的值会减少Map任务数量。 - `mapred.min.split.size.per.node`:控制同一DataNode上多个小文件是否需要合并。 - `mapred.min.split.size.per.rack`:控制跨机架(Rack)的文件是否需要合并 [^2]。 #### 输出合并 Hive允许在任务结束后自动合并输出的小文件,这可以通过如下参数配置: - `hive.merge.mapfiles`:当设置为`true`时,在Map-only任务结束后合并输出文件,默认为`true`。 - `hive.merge.mapredfiles`:当设置为`true`时,在Map-Reduce任务结束后合并输出文件,默认为`false` [^3]。 - `hive.merge.size.per.task`:定义每个合并后文件的目标大小,默认是`256*1000*1000`字节(约256MB),可以根据实际需求调整 [^2]。 - `hive.merge.smallfiles.avgsize`:当输出文件的平均大小小于该值时,Hive将启动一个额外的Map-Reduce任务来进行文件合并,默认是`16*1000*1000`字节(约16MB) [^3]。 例如,可以在HiveQL脚本开头添加以下语句来配置这些参数: ```sql SET hive.merge.mapfiles=true; SET hive.merge.mapredfiles=true; SET hive.merge.size.per.task=256000000; -- 256MB SET hive.merge.smallfiles.avgsize=100000000; -- 100MB ``` 这样配置意味着: - 在Map-only和Map-Reduce任务结束后都会尝试合并小文件; - 每个最终生成的文件大小目标为256MB; - 如果输出文件的平均大小小于100MB,则触发一次额外的合并任务。 ### 注意事项 - 这些参数可能会影响性能,因此建议根据集群的具体情况和数据量进行适当调整。 - 可以结合`CombineHiveInputFormat`与上述输出合并参数一起使用,以获得更佳的小文件处理效果 。 - 实际应用中,还应考虑存储空间、查询效率等因素,合理规划文件大小。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值