Hive内部表和外部表的区别

Hive是基于Hadoop的数据仓库工具,hive本身并不存储数据,而是将表数据文件存储在hdfs中,hive能将此数据文件映射为一张表,并提供解析编译sql的功能,将用户提交的sql转换为mr job,在mapreduce引擎上对数据进行查询、统计和分析。

Hive创建表格时可以选择创建外部表或者内部表,内部表和外部表的区别主要在于:

(1)建表语句区别。外部表用external修饰,一般用location标识表数据所在位置。内部表数据一般在hdfs的/user/hive/warehouse/下。

(2)Hive管理范围不同。Hive管理内部表的元数据以及实际的表数据,而对于外部表只管理它的元数据。

(3)drop删除表的后果不同。对于内部表,drop会删除元数据以及实际表数据,因此内部表不适合和其他表共享数据;而外部表只会删除它的元数据,hdfs上的表数据不会被删除,因此更安全,更适合共享数据。

(4) 对表进行alter操作的不同。如对表的分区进行drop操作,对于外部表而言,只会删除对应的元数据信息,而不会删除hdfs上的路径,造成hive的元数据和hdfs分区路径不一致,此时需要修复表;而对于内部表而言,则会自动将更改同步至元数据以及hdfs路径。

(5)适用场景不同。一般来说,外部表更适合长期存储、数据共享(hive和其他工具共同处理数据)等需求,多用于数据仓库场景下。内部表更适合所有数据都由hive进行处理的场景下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值