MSCK REPAIR TABLE 命令是做啥的
MSCK REPAIR TABLE命令主要是用来:
解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。
我们知道hive有个服务叫metastore,
这个服务主要是存储一些元数据信息,
比如数据库名,表名或者表的分区等等信息。
如果不是通过hive的insert等插入语句,
很多分区信息在metastore中是没有的,
如果插入分区数据量很多的话,
你用 ALTER TABLE table_name ADD PARTITION 一个个分区添加十分麻烦。
这时候MSCK REPAIR TABLE就派上用场了。
只需要运行MSCK REPAIR TABLE命令,
hive就会去检测这个表在hdfs上的文件,
把没有写入metastore的分区信息写入metastore。
例子
我们先创建一个分区表,
然后往其中的一个分区插入一条数据,
在查看分区信息
CREATE TABLE repair_test (col_a STRING)
PARTITIONED BY (par STRING);
INSERT INTO TABLE repair_test
PARTITION(par="partition_1")
VALUES ("test");
SHOW PARTITIONS repair_test;
查看分区信息的结果如下
+------------------+--+
| partition |
+------------------+--+
| par=partition_1 |
+------------------+--+
1 row selected (0.073 seconds)
0: jdbc:hive2://localhost:10000>

MSCK REPAIR TABLE是Hive中的一个实用命令,用于解决通过非Hive方式写入的数据在元数据中未注册的问题。当HDFS上的分区数据与Hive metastore不一致时,此命令会自动检测并更新分区信息。本文通过实例展示了如何使用该命令修复分区表,并探讨了不同Hive版本对此命令的支持情况。
最低0.47元/天 解锁文章
5580

被折叠的 条评论
为什么被折叠?



