Bucket Join：分桶Join

最新推荐文章于 2024-09-14 09:06:29 发布

章鱼哥TuNan&Z

最新推荐文章于 2024-09-14 09:06:29 发布

阅读量1.5k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： # Hive 文章标签： mapreduce hadoop big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_43528451/article/details/124624338

Hive 专栏收录该内容

59 篇文章

订阅专栏

本文详细介绍了BucketJoin技术在大数据处理中的应用，特别是针对大表join大表的场景。BucketJoin通过预先将数据分桶，减少MapReduce中不必要的数据比较，提高Join效率。具体步骤包括按照分桶规则对数据进行拆分，以及实现桶与桶之间的Join。BucketMapJoin和SortMergeBucketMapJoin是两种实现方式，前者要求桶的个数成倍数，后者则要求桶内数据有序，进一步优化Join过程。该技术对于提升大数据处理性能具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bucket Join：分桶Join

场景：大表join大表，多次join
实现
- step1：将两张大表的数据构建分桶
  - 数据按照分桶的规则拆分到不同的文件中
  - 分桶规则=MapReduce分区的规则=key的hash取余
  - key=分桶的字段
- step2：只要实现桶与桶的join，减少了比较次数
- 分桶本质：低层MapReduce的分区，桶的个数=Reduce个数=文件个数
分类
- Bucket Map Join ：普通的分桶Join
  - 桶内的没一条数据要与对方桶的每一条数据进行join比较
  - 要求：
    - 两张表是桶表，桶的个数必须成倍数
```
create table tbname(
)
clusterd by (分桶的字段) into N bucket； 
```
    - 分桶的字段=join的字段
    - 必须开启Map Join
- Sort Merge Bucket Map Join：每个桶内有序的join
  - 只要桶内的下一条不是，就不用再比较了
  - 要求
    - 两张表必须是桶表，桶的个数必须相同
```
create table tbname(
)
clusterd by (分桶的字段) sorted by (分桶的字段) into N bucket； 
```
    - 分桶的字段=排序的字段=join的字段
    - 必须开启Map Join

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

章鱼哥TuNan&Z 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。