Hive distribute 问题

最新推荐文章于 2025-03-01 21:54:44 发布

qq_23660243

最新推荐文章于 2025-03-01 21:54:44 发布

阅读量2.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_23660243/article/details/51184471

大数据专栏收录该内容

24 篇文章

订阅专栏

在使用Hive处理数据时，遇到一个关于distribute by的问题。试图将表mytest按word字段分成6个桶，但发现结果并非预期，部分字母混合在了一起。通过分析发现，distribute by是根据字段值的hash码对reduce任务数量取模进行分区，而非像group by那样基于字段值的相等性。这一过程类似于MapReduce的分区功能，增长了对Hive分区原理的理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天在使用Hive的时候遇到了一个十分有这意思的问题，感觉有必要记录一下。

大体情况是这样的，我数据库表中有一个mytest的表，只有一个word的string类型字符串。表格很简单，如下:

里面的内容很简单，全部是字母：

使用hive首先分区，分成6个(我认为这里有六种不同的字母，所以分六个桶，分别存放)，然后将结果输出到本地文件夹下。操作步骤为：

set mapred.reduce.tasks=6;

insert overwrite local directory '/home/hadoop/out' select * from mytest distrubute by word sort by word;

我们查看文件夹下：

有六个文件，与我们预期的一样。按我想每个文件里存放同一种字母：

傻眼了，不对呀，怎么有些搞到一起去了。经过本王的检查发现，原来distribute的原理搞错了。那是怎么搞得呢，如果说hive的分桶原理与mapreduce的原理相同的话，那么我们可不可以把此过程看作是maptask的分区功能呢，那么他就会对reduce的个数进行模除。想到这里，相比大家都明白了，我再付一张图：

这下懂了，原来放一起的字母的hash码对6的模除相同，所以放在了一起，原来distribute的分区是根据分区字段与reduce的个数进行模除分区的，并不是像group by这种根据字段是否相同分区，涨知识了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。