hive分桶操作,按照分桶的id去指定查询。

原创已于 2023-08-25 11:45:03 修改 · 396 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

于 2023-08-25 11:43:29 首次发布

本文探讨了Hive中使用分区和分桶加速查询的方法，解释了分桶原理，以及如何利用哈希和MapReduce的reduce分区逻辑进行精确查询。作者还提供了查询特定桶的SQL示例。

在进行hive大表操作的时候，我们常常使用分区去进行指定查询以加快查询速度，其实分桶也是一种很好的选择：

1、分桶将文件进行切块，哈希散列，均匀的存储于hdfs中，避免数据倾斜；

2、分桶join的时候，效率更高；

但是也会遇到一些查询方面的问题，如果是分区表，直接指定分区字段即可快速过滤定位到所需查询的数据，但是在分桶表中，无法直接定位到具体的桶。笔者进行相关的搜索和查询MapReduce源码，分桶的操作实际上是对数据进行不同的存储文件中，MapReduce中，多少个分桶即产生不同的reduce个数，即找到他是如何进行reduce分区逻辑即可：

public int getPartition(K key, V value, int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

可以看到，分区原则是key的哈希值和 int的最大值进行做与运算，保证哈希的值是一个正数，再去余我们的分区数或者分桶数，得到他最终落到哪一个桶。

所以我们可以直接指定桶进行查询：

select id 
from table_name tablesample (bucket X out of Y on id)

查询id的具体分桶：

SELECT (hash(id) & 2147483647) % 桶个数 +1

如果我们分桶4个，上面代码具体桶在 1 ，则查询该idSQL可以写

select id 
from table_name tablesample (bucket 1 out of 4 on id)
where id = $id

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Raise~

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Hive入门】Hive分桶表深度解析：从哈希分桶到Join优化的完整指南

IT成长日记的博客

04-26

1899

在大数据领域，Hive作为Hadoop生态系统中最受欢迎的数据仓库工具，其性能优化一直是数据工程师关注的核心问题。本文将深入探讨Hive中一种高效的数据组织方式——分桶表(Bucketed Table)，从基础概念到高级优化技巧，特别是其在Join操作中的卓越表现，为您呈现一份完整的实践指南。

hadoop学习---Hive分桶表的机制及其查询优化方案

weixin_46164667的博客

05-05

1667

分桶是将数据集分解成更容易管理的若干部分的一个技术，是比分区更为细粒度的数据范围划分。主要是用于分文件的，在建表的时候，指定按照那些字段执行分桶操作，并可以设置需要分多少个桶，当插入数据的时候，执行MR的分区的操作，将数据分散各个分区(hive分桶)中，默认分发方案: hash 取模。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2023.08.27
恭喜您写了第9篇博客！标题看起来很有吸引力，我对hive分桶操作也很感兴趣。您的文章内容是否详细介绍了如何按照分桶的id去指定查询呢？如果有的话，我期待着能够从您的博客中学到更多关于这个话题的知识。同时，对于下一步的创作建议，或许您可以考虑分享一些实际应用场景中的案例，或者深入探讨一些与hive分桶操作相关的技巧和最佳实践。谢谢您的分享，并期待您更多的精彩文章！