hive 自动加载数据多分区目录

Hive分区加载实践
本文介绍了如何使用Hive进行分区表的数据加载,并针对多级目录结构的情况提供了具体解决方案。通过设置hive.msck.path.validation参数为ignore,可以解决msck命令在处理包含特殊字符路径时的问题。

在使用hive建表加载数据时,如果是一个分区,那么用alter table mytable ADD IF NOT EXISTS PARTITION(p1='p1') location 'hdfs://xxx' 或者直接用msck repair table mytable都可以将指定目录的数据加载到分区

但是对于多级目录来说,比如

  • /data/year=/month=/day=/source1/abc.log
  • /data/year=/month=/day=/source2/def.log
这种结构,如果创建表的时候分区为year,month,day,那么 可以用add partition 方式是可以加载数据到指定分区,但是msck会报错,主要原因是msck必须要目录结构满足:

/partition_name=partition_value/

且不能包含特殊字符

当多级目录时,这时候会有/特殊字符,那么可设置hive.msck.path.validation为skip或者ignore 就可以了

set hive.msck.path.validation = ignore


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值