分区表无法查询手动put进hdfs的数据问题

最新推荐文章于 2025-05-13 08:44:33 发布

men子烦高

最新推荐文章于 2025-05-13 08:44:33 发布

阅读量3.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hive

本文链接：https://blog.youkuaiyun.com/devin07/article/details/50261989

hive 专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何解决Hive表中直接通过HDFS put命令添加数据后，无法在Hive命令行查询到新增数据的问题。通过使用MSCK REPAIR TABLE命令，可以更新元数据并使新数据可见。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：hive表查hdfs目录文件有数据，但在hive命令行查分区表查不到数据

向hive表对应hdfs中新建目录，put数据后，在hive命令行查询，查不到put进分区的数据，下面记录处理方法：

分区既然是HDFS目录，那就可以通过hdfs put命令直接向HDFS添加分区。然而，元存储拥有所有表的元数据，它不会自动识别这些直接被添加到HDFS的分区。Hive提供了命令MSCK REPAIR TABLE tableName;，可以自动地更新元存储来恢复分区。如果基于亚马逊EMR，这个命令是ALTER TABLE tableName RECOVER PARTITIONS;。

测试如下：

hadoop fs -mkdir hdfs://yhd-jqhadoop2.int.yihaodian.com:8020/user/hive/warehouse/testtmp.db/denglg/step=4

hive> select * from denglg where step='4';
OK
Time taken: 0.067 seconds

hadoop fs -cp hdfs://yhd-jqhadoop2.int.yihaodian.com:8020/user/hive/warehouse/testtmp.db/denglg/step=3/000000_0 hdfs://yhd-          jqhadoop2.int.yihaodian.com:8020/user/hive/warehouse/testtmp.db/denglg/step=4/000000_0

hive> select * from denglg where step='4';
OK
Time taken: 0.066 seconds

hive> MSCK REPAIR TABLE denglg;
OK
Partitions not in metastore:    denglg:step=4
Repair: Added partition to metastore denglg:step=4
Time taken: 0.156 seconds, Fetched: 2 row(s)

hive> select * from denglg where step='4';
OK
111    222    333    4
Time taken: 0.068 seconds, Fetched: 1 row(s)