Spark join的分类

最新推荐文章于 2024-06-12 00:46:20 发布

原创

最新推荐文章于 2024-06-12 00:46:20 发布 · 838 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了Spark SQL支持的四种Join算法：Hash Join、Broadcast Hash Join、Shuffle Hash Join和Sort-Merge Join。Hash Join通过构建Hash Table进行join操作；Broadcast Hash Join适合小表，将小表广播到所有节点；Shuffle Hash Join针对不适宜广播的大表，按key进行重分布；Sort-Merge Join则对大表进行排序后再进行join，提高稳定性。

当前SparkSQL支持三种Join算法：shuffle hash join、broadcast hash join以及sort merge join。

Hash Join

采用hash join算法，整个过程会经历三步：

确定Build Table以及Probe Table：Build Table使用join key构建Hash Table，而Probe Table使用join key进行探测，探测成功就可以join在一起。通常情况下，小表会作为Build Table，大表作为Probe Table。
构建Hash Table：依次读取Build Table的数据，对于每一行数据根据join key进行hash，hash到对应的Bucket，生成hash table中的一条记录。数据缓存在内存中，如果内存放不下需要dump到外存。
探测：再依次扫描Probe Table的数据，使用相同的hash函数映射Hash Table中的记录，映射成功之后再检查join条件，如果匹配成功就可以将两者join在一起。

Broadcast Hash Join

将其中一张小表广播分发到另一张大表所在的分区节点上，分别并发地与其上的分区记录进行hash join。broadcast适用于小表很小，可以直接广播的场景。broadcast hash join可以分为两步：

broadcast阶段：将小表广播分发到大表所在的所有主机
hash join阶段：在每个executor上执行hash join，小表映射

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。