Hive外部表

最新推荐文章于 2025-06-17 09:56:30 发布

原创最新推荐文章于 2025-06-17 09:56:30 发布 · 1.2w 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#hive

hive 专栏收录该内容

0 篇文章

订阅专栏

本文详细阐述了Hive中内部表与外部表的区别及创建方法。内部表将数据移动到指定路径，删除时会一并移除数据；外部表仅记录数据位置，删除时仅移除元数据。此外还介绍了Hive的schema on read特性及其对数据导入的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive外部表

Hive中表与外部表的区别:

Hive 创建内部表时，会将数据移动到数据仓库指向的路径；
Hive 创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变；
在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

注意

传统数据库对表数据验证是schema on write（写时模式），而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是schema on read（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema；
读时模式的优势是load data 非常迅速，因为它不需要读取数据进行解析，仅仅进行文件的复制或者移动。写时模式的优势是提升了查询性能，因为预先解析之后可以对列建立索引，并压缩，但这样也会花费要多的加载时间。
Hive数据导入表情况：
- 在LOAD DATA时，如果加载的文件在HDFS上，此文件会被移动到表路径中；
- 在LOAD DATA时，如果加载的文件在本地，此文件会被复制到HDFS的表路径中；
- 在LOAD DATA时，会为每一个待导入的文件，启动一个MR任务进行导入。

外部表创建

如同内部表一样，外部表在创建表时也需要指定数据表所在的数据文件的路径——以下简称为表路径。如果没有指定，Hive会自动分配一个。自动分配的目录是hive主目录下的【表名】目录；
如果创建外部表时，指定表的数据存储目录。Hive会将此目录下已有的所有文件作为表的数据文件，在查询时进行解析。此时，Hive仍会在hive的目录下创建【表名】的目录，但目录内的内容为空。

e.g

-- 指定表的仓库路径
CREATE EXTERNAL TABLE test_table(id STRING, name STRING) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LOCATION '/data/test/test_table';
-- 导入数据到表中(文件会被移动到仓库目录/data/test/test_table)
LOAD DATA INPATH '/test_tmp_data.txt' INTO TABLE test_table;

外部表数据删除

上述提到Hive外部表只删除元数据，不删除数据。如果要删除外部表以及外部表数据，则还需通过dfs删除外部表数据存储路径文件。如下：

删除表以及表数据 e.g

-- 删除表（实际是只删除元数据）
DROP TABLE test.test_table;
-- 删除外部表数据文件以及目录
DFS -rm -r /data/test/test_table;

清空外部表数据(实际上是删除数据文件) e.g

-- 删除外部表存储目录下所有数据文件（不删除外部表存储目录）
DFS -rm -r /data/test/test_table/*;

参考

Hive 中内部表与外部表的区别与创建方法