hive中重建新表插入报错

最新推荐文章于 2025-01-03 18:11:10 发布

原创最新推荐文章于 2025-01-03 18:11:10 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

在Hive中，当尝试向已存在的分区插入数据时，可能会遇到因数据文件冲突导致的错误。本文详细解析了这一问题的根源，并提供了解决方案，即使用Hadoop fs命令手动删除HDFS上的旧数据文件。

在hive中，会有这样一种情形：

1、创建一个分区外部表A(比如A表有5个字段)，并且向A表里指定的分区(比如20200728这个分区)里插入数据

2、发现A表缺少一些字段，因为存在元数据不实时更新的问题，不想更新元数据，就进行删表重新建表B(表B与表A除了多了几个字段外，别的都一样)

3、再执行hql脚本，把最新的字段样式的数据插入到20200728这个分区里

会出现如下的报错：

Failed with exception java.io.IOException: rename for src path: hdfs://bdc/are_wek/date=20200728/
.hive-staging_hive_xxxxxx-1/-ext-10000/000000_0 to dest path:hdfs://test/are_wek/date=20200728/000000_0 returned false
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. java.io.IOException: rename for src path: hd
fs://test/are_wek/date=20200728/.hive-staging_hive_xxxxxxx-1/-
ext-10000/000000_0 to dest path:hdfs://test/are_wek/date=20200728/000000_0 returned false

这个错误是指hadoop在把hql执行结果从临时文件挪到对应的表所在的目录时出错；

出现这个问题的原因是：

1、虽然是drop了表，其实只是删除了表的元数据，但是表对应的数据文件依然还在hdfs上；

2、hive在把临时文件挪移到正式目录时，会先对hdfs上的文件做一个判断，如果文件夹不存在那就创建，如果存在那就直接把文件挪移过去，这样就等于把临时文件夹里的000000_0文件挪到正式目录下，这时候正式目录已经有了一个叫000000_0的文件，所以就会报如上的错误

解决办法：

hadoop fs -rm -r /test/are_wek/date=20200728/*

把对应的数据文件删除即可