Hive 中主要包括 4 种数据模型:表(Table)、外部表(External Table)、分区(Partition)以及 桶(Bucket)。
Hive 的表和数据库中的表在概念上没有什么本质区别,在 Hive 中每个表都有一个对应的存储目录。
外部表指向已经在 HDFS 中存在的数据,也可以创建分区。
Hive 中的每个分区都对应数据库中相应分区列的一个索引,但是其对分区的组织方式和传统关系数据库不同。
桶在指定列进行 Hash 计算时,会根据哈希值切分数据,使每个桶对应一个文件。
本文介绍了Hive中的四种主要数据模型:表、外部表、分区和桶。详细解释了这些模型的概念及其在Hive中的作用,包括它们如何帮助组织和管理大数据集。

被折叠的 条评论
为什么被折叠?



