仅在这里说一下自己遇到的问题,以及解决方案。不保证正确。
在spark里面创建了一个分区表,删除分区后导入新的数据到相同分区。发现有两份数据。
后来排查,删除分区后,在hive里面看不到分区了,但是在hdfs里面数据仍然存在,所以当相应分区重新创建时,hdfs里的数据又能查询到了。
truncate table时遇到错误,不能truncate外部表。
于是使用desc formatted table-name 发现果然当前表是外部表
具体外部表和内部表的区别就不在此赘述。感兴趣的可以百度查一下。
具体卫生me创建了外部表
其实我的建表语句里面没有指定external
应该是因为使用spark创建表导致的