【HIVE】HIVE— 索引、分区和分桶的区别

最新推荐文章于 2025-10-20 22:03:06 发布

转载最新推荐文章于 2025-10-20 22:03:06 发布 · 1k 阅读

·

2

·

文章标签：

#hive #分区 #分桶

Hive 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了Hive中的三种数据组织方式：索引、分区和分桶。详细解释了它们的定义、目的及应用场景，并对比了各自的优缺点。

一、索引

简介

Hive 支持索引，但是 Hive 的索引与关系型数据库中的索引并不相同，比如，Hive 不支持主键或者外键。

Hive 索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少 MapReduce 任务中需要读取的数据块的数量。

为什么要创建索引？

Hive 的索引目的是提高 Hive 表指定列的查询速度。
没有索引时，类似 'WHERE tab1.col1 = 10' 的查询，Hive 会加载整张表或分区，然后处理所有的 rows，
但是如果在字段 col1 上面存在索引时，那么只会加载和处理文件的一部分。
与其他传统数据库一样，增加索引在提升查询速度时，会消耗额外资源去创建索引表和需要更多的磁盘空间存储索引。

二、分区

简介

为了对表进行合理的管理以及提高查询效率，Hive 可以将表组织成 “分区”。

分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。

分区是一种根据 “分区列”（partition column）的值对表进行粗略划分的机制。Hive 中每个分区对应着表很多的子目录，将所有的数据按照分区列放入到不同的子目录中去。

为什么要分区？

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下，可以通过分区的方法减少每一次扫描总数据量，这种做法可以显著地改善性能。

数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。比如 vido 表，分区的依据可以是电影的种类和评级，另外，按照拍摄时间划分可能会得到更一致的结果。为了达到性能表现的一致性，对不同列的划分应该让数据尽可能均匀分布。最好的情况下，分区的划分条件总是能够对应 where 语句的部分查询条件。

Hive 的分区使用 HDFS 的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值。但是由于 HDFS 并不支持大量的子目录，这也给分区的使用带来了限制。我们有必要对表中的分区数量进行预估，从而避免因为分区数量过大带来一系列问题。

Hive 查询通常使用分区的列作为查询条件。这样的做法可以指定 MapReduce 任务在 HDFS 中指定的子目录下完成扫描的工作。HDFS 的文件目录结构可以像索引一样高效利用。

三、分桶（桶表）

简介

桶是通过对指定列进行哈希计算来实现的，通过哈希值将一个列名下的数据切分为一组桶，并使每个桶对应于该列名下的一个存储文件。

为什么要分桶？

在分区数量过于庞大以至于可能导致文件系统崩溃时，我们就需要使用分桶来解决问题了。

分区中的数据可以被进一步拆分成桶，不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。

注意，hive 使用对分桶所用的值进行 hash，并用 hash 结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。

哈希函数的选择依赖于桶操作所针对的列的数据类型。除了数据采样，桶操作也可以用来实现高效的 Map 端连接操作。

记住，在数据量足够大的情况下，分桶比分区，更高的查询效率。

四、总结

索引和分区最大的区别就是索引不分割数据库，分区分割数据库。

索引其实就是拿额外的存储空间换查询时间，但分区已经将整个大数据库按照分区列拆分成多个小数据库了。

分区和分桶最大的区别就是分桶随机分割数据库，分区是非随机分割数据库。

因为分桶是按照列的哈希函数进行分割的，相对比较平均；而分区是按照列的值来进行分割的，容易造成数据倾斜。

其次两者的另一个区别就是分桶是对应不同的文件（细粒度），分区是对应不同的文件夹（粗粒度）。

注意：普通表（外部表、内部表）、分区表这三个都是对应 HDFS 上的目录，桶表对应是目录里的文件

推荐大家学习的时候 HIVE、HDFS、MYSQL 三者结合一起看，更容易理解其中的原理。

转载自：https://www.cnblogs.com/LiCheng-/p/7420888.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。