太多的.hive-stagingxxx文件的处理

本文介绍了解决Hive查询过程中产生的大量.hive-staging_hive_date-time_XXX临时文件的问题。通过配置hive-site.xml指定这些文件的存储路径,并提供了一个.sh脚本用于定期清理这些无用的文件,以避免它们占用过多HDFS空间。


仔细一看,才发现几乎每个HIVE的查询语句都会产生这样的一个文件,这种文件会随着时间积累不断增加。


这也是前段时间造成HDFS目录故障的原因之一。


查了网上的相关说明,也没有比较好的说明,可能这是基于任何一个MAP REDUCE程序都需要报告结果一样的原因。而这个文件本身是没有什么意义的。


于是采取步骤如下:


1,在hive-site.xml中,添加对其文件夹目录的配置

<property>
    <name>hive.exec.stagingdir</name>
    <value>${hive.exec.scratchdir}/${user.name}/.staging</value>
    <description>
      In Hive >= 0.14, set to ${hive.exec.scratchdir}/${user.name}/.staging
      In Hive < 0.14, set to ${hive.exec.scratchdir}/.staging

      You may need to manually create and/or set appropriate permissions on
      the parent dirs ahead of time.
    </description>
</property>

2、写个.sh文件,定期对文件夹进行清理。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值