Hive 7. 桶 (Bucket)

最新推荐文章于 2024-01-04 18:53:39 发布

原创最新推荐文章于 2024-01-04 18:53:39 发布 · 459 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #数据

Hive 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了Hive中的桶表概念及其优势，包括提高查询效率和抽样操作的效率。通过具体的示例说明如何创建桶表，并展示了桶表的实际应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

桶（Bucket）

理解

桶是除分区表之外的Hive另一种组织表的方式。
其实桶组织表的方式和 Shuffle map 端的 partition 很相似，就是将文件中的某个关键数据进行哈希处理（mr 中是键，桶中就是自己指定），然后将哈希结果对一个数（mr 中是 reduce 任务的个数，桶中由用户指定）进行取模，然后根据取模结果放置在相应的文件中。

优点

有两个好处：

第一个就是让查询更加高效。
桶会在表上提供额外的结构，这让 Hive 在进行精确的数据查询时得到好处。另外，可以将要进行连接（join）的两个表在相同的列上进行桶处理，这样能够让 map 端的连接操作更加高效，因为同值的行都被hash取模到相同命名的文件中。
第二个就是桶能够让抽样操作更加高效。当你在一个很大的数据集上工作，你正在进行开发或者改善程序，查询出具有代表的小数据集抽样来验证程序，能够变得非常方便。

注意

需要配置 hive.enforce.bucketing 为 true，这样才会按照你定义的桶数目进行分桶。
另外还需要提前设置一下 Hive 调用 mapreduce 任务时所开辟的 JVM 内存。Hive 默认的大小为 200 MB，太小了。
添加 mapred.child.java.opts 属性的值为
-Xmx1024m，即一个G。
要不然就会内存溢出。

创建

使用下面的操作来告诉 Hive ，你想将这个表进行桶处理。

Create Table bucketed_users (id Int, name String)
Clustered By (id) Into 4 Buckets;

使用 Clustered By 子句来设置桶操作依照的列，后面就是桶的个数。

设置数据排序

这样在 join 时候会更加高效。

Create Table bucketed_users (id Int, name String)
Clustered By (id) Sorted By(id Asc) Into 4 Buckets;

注意
Hive 在插入数据阶段不会按表的定义来检查桶操作后的磁盘上的数据文件，如果格式不匹配，会在读取时检查出来。这就所谓的读模式。

先弄一个非桶的用户表。

hive> Select * from users;
0   Nat
2   Joe
3   Kay
4   Ann

然后将数据 Insert 进 bucketed_users 表中。

Insert OverWrite Table bucketed_users
Select * From users;

物理上，每个桶就是表(或分区）目录里的一个文件。它的文件名并不重要，但是桶 n 就是按照字典序排列的第 n 个文件。事实上，桶对应于 MapReduce 的输出文件分区：一个作业产生的桶(输出文件)和reduce任务个数相同。我们可以通过查看刚才创建的bucketd_users表的布局来了解这一情况。运行如下命令：

hive> dfs -ls /你的Hive数据目录/bucketed_users;

然后你就发现下面几个文件：

看一看第一个文件，结果为：

4   Ann
0   Nat

因为数字哈希后的结果还是其本身，所以你会发现第一个文件中的id数值为取4的模结果为 0 的行。

取样的方式

hive> Select * From bucketed_users
    > Tablesample(Bucket 1 Out Of 4 On id);

即取总数据四分之一的值。

hive> Select * From bucketed_users
    > Tablesample(Bucket 1 Out Of 2 On id);

这就是二分之一。

注意：取样并不是一个精确的操作，不是刚刚好几分之几，且是你的数据的分布情况决定了取样的均匀程度。

End!!!