Hive优化--join优化1

原创已于 2023-03-10 20:47:53 修改 · 332 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

于 2023-03-09 21:46:57 首次发布

Hive支持多种Join算法，如CommonJoin通过单个MapReduce任务完成，适合关联字段相同的join操作；而当关联字段不同时，可能需要多个任务，例如上述例子中不同的字段会导致两个独立的CommonJoin任务。MapJoin适用于小表，BucketMapJoin和SortMergeBucketMapJoin则涉及到数据预处理。

Hive拥有多种join算法

包括Common Join，Map Join，Bucket Map Join，Sort Merge Buckt Map Join等

Common Join

Hive中最稳定的join算法，其通过一个MapReduce Job完成一个join操作。

Map端负责读取join操作所需表的数据，并按照关联字段进行分区

通过Shuffle，将其发送到Reduce端，相同key的数据在Reduce端完成最终的Join操作

注意

sql语句中的join操作和执行计划中的Common Join任务并非一对一的关系

一个sql语句中的相邻的且关联字段相同的多个join操作可以合并为一个Common Join任务。

-- 关联字段相同
hive (default)> 
select 
    a.val, 
    b.val, 
    c.val 
from a 
join b on (a.key = b.key1) 
join c on (c.key = b.key1)

上述sql语句中两个join操作的关联字段均为b表的key1字段，则该语句中的两个join操作可由一个CommonJoin任务实现，也就是可通过一个Map Reduce任务实现。

-- 关联字段不一样
hive (default)> 
select 
    a.val, 
    b.val, 
    c.val 
from a 
join b on (a.key = b.key1) 
join c on (c.key = b.key2)

上述sql语句中的两个join操作关联字段各不相同，则该语句的两个join操作需要各自通过一个Common Join任务实现，也就是通过两个Map Reduce任务实现。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

谨言&慎独

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hive优化--Bucket Map Join

yyGeek的博客

03-09

1189

Map Join算法的改进可用于大表join大表的场景。

Hive优化-大表join大表优化

热门推荐

Mr.pan felix的专栏

08-10

1万+

　　5、大表join大表优化　　　　　　如果Hive优化实战2中mapjoin中小表dim_seller很大呢？比如超过了1GB大小？这种就是大表join大表的问题。首先引入一个具体的问题场景，然后基于此介绍各自优化方案。　　 5.1、问题场景　　　　　　问题场景如下：　　　　　　A表为一个汇总表，汇总的是卖家买家最近N天交易汇总信息，即对于每个卖家最近N天，其每个买家共成交了多少单，总金额是多少，假设N取90天，汇总值仅取成交单数。　　　　　　A表的字段有：buyer_id、selle

参与评论您还未登录，请先登录后发表或查看评论

HIVE语法优化之Join优化

qq_42265608的博客

08-06

1035

这个数据不需要进入内存加载,直接在磁盘进行操作了,因为他是顺序读取,效率也很高,不需要加入内存读取来提高效率.桶用两表关联字段,MapJoin时需要将小表填入内存,这时候,分桶就起到了作用。m c 就是子任务 ,那么,子任务是map join么?一个stage阶段代表一个mr执行,好几个MR,会吧每一个MR的结果都压缩。job2:从缓存中读取小表数据,缓存在Map Task中,扫描大表.如果sql语句执行超过指定时间,定义该sql为慢查询,存储日志,如果达不到要求,就不继续聚合,然后最后的比例,聚合。

hive中的join相关的优化

qq_42456324的博客

04-20

3969

1、mapjoin 顾明思议，mapJoin的意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作(执行mr过程的map操作)。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join会在map阶段完成，仅仅是在内存就进行了两个表的join，并不会涉及reduce操作。map端join的优势就是在于没有shuffle，从而提高效率。在实际的

hive的join优化

lijian972的博客

05-17

4107

hive的join 优化

Hive优化之Join（三）

weixin_44318460的博客

10-17

2678

Hive优化之Join

hive join的优化

祁东握力的博客

11-07

537

CommonJoin 最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个mapoutput key 变成了table_name_tag_prefix + join_column_value , 但...

hive-jdbc-uber-2.6.5.0

10-25

1. **连接Hive Server**：Hive JDBC提供了一个接口，用于建立到Hive服务的连接。这通常涉及配置Hive服务器的URL、用户名、密码以及任何必要的安全参数（如Kerberos认证）。 2. **执行SQL查询**：一旦建立了连接，...

apache-hive-2.3.9-bin.tar大数据HIVE.zip

10-08

1. **数据模型**：Hive 支持两种主要的数据存储结构——表（Table）和分区（Partition）。表是数据的基本单位，可以看作是关系数据库中的表格。分区则是对大表进行逻辑上的划分，通过将数据按特定字段值进行分类，...

Hive-Summit-2011-join.zip_hive

09-21

4. **Bucketing与Sorting**：为了优化Join，Hive允许用户对表进行bucketing和sorting，这样可以确保相同键值的数据被分配到相同的分区，从而减少Join过程中的数据传输量。 5. **Tez和Spark作为执行引擎**：2011年...

Hive优化

Java&&大数据专栏

09-07

852

Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（Column Pruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询： SELECT a,b FROM T WHERE e 其中，T 包含 5 个列 (a,b,c,d,e)，列 c，d 将会被忽略，只会读取a, b, e 列

Hive优化(2)——join优化

麦当当的博客

05-10

1816

在Hive中，优化JOIN操作是提高查询性能的关键之一。JOIN操作是将两个或多个数据集中的记录基于某个共同字段进行关联的操作，它可能会消耗大量的计算资源和时间，尤其是在处理大型数据集时。优化Hive JOIN操作可以通过数据预处理、分区、数据倾斜处理、合适的JOIN类型选择、调整并行度和资源配置以及使用索引等方法来提高查询性能和执行效率。根据实际情况选择合适的优化策略，可以有效地提升Hive查询的性能。

hive合并查询——头歌

m0_68235882的博客

05-09

3859

之前的单表查询只是对一张表进行查询，而多表查询需要将两张及两张以上的表进行关联查询。在多表查询中，通常使用表名.列名来对各表中的列进行查询操作。的单表查询，本关主要讲解如何进行多表查询。本关任务：统计查询各班学习Python的人数。根据提示，在右侧编辑器补充代码，统计查询各班学习Python的人数。平台会对你编写的代码进行测试！预期输出： c1 3 c3 2。为了完成本关任务，你需要掌握：1.在之前的实训中，我们已经知道了。数据切分方式均为：英文逗号。

【Hive入门】Hive性能调优之Join优化：深入解析MapJoin与Sort-Merge Join策略

最新发布

IT成长日记的博客

05-02

1691

Hive中两种核心Join优化策略：MapJoin（小表驱动大表）和Sort-Merge Join，通过原理分析、配置参数以了解Hive Join性能调优的精髓。通过合理运用MapJoin和Sort-Merge Join策略，可以显著提升Hive查询性能，特别是在大数据量Join场景下。

HiveSQL优化

AGI爱好者_数仓&可视化&数据分析工程师_Vae’伯乐‘

11-26

2239

将那些产生倾斜的key和对应v2的数据, 从当前这个MR中移出去, 单独找一个MR来处理即可, 处理后, 和之前的MR进行汇总结果即可。候, 将其提前配置设置好即可, 在后续运行的时候, 程序会自动将设置的key的数据单独找一个MR来进行处理即可, 处。当前这个k2的数据存在数据倾斜, 自动将其剔除, 交由给一个单独的MR来处理即可,两个MR处理完成后, 将结果基于。思路: 在执行MR的时候, 会动态统计每一个 k2的值出现重复的次数, 当这个重复的次数达到一定的阈值后, 认为。

hive优化（三）

mengxb12138的博客

06-13

376

一． join 优化Join 查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。 Join 查找操作中如果存在多个 join，且所有参与 join 的表中其参与 join 的 key 都相同，则会将所有的 joi

Hive 如何优化 Join 操作

My_wife_QBL的博客

08-01

1529

优化 Hive 的 Join 操作是提高查询性能和效率的关键。通过采取一系列优化策略，如使用 Map Join、优化 Join 顺序、提前应用过滤条件、利用分区和分桶、选择合适的文件格式以及避免不必要的 Join 操作，用户可以显著提高 Hive 查询的响应速度。在实际应用中，了解数据的特性和查询的需求，合理设计表结构和查询逻辑，将有助于充分发挥 Hive 在大数据分析中的优势。希望本文能够为读者提供有效的优化策略，帮助他们在 Hive 中更高效地执行 Join 操作。

详解hive的join优化(建议收藏)

a934079371的博客

11-03

6279

hive Optimizer的改进注意，本文讨论的hive join优化器是从hive 0.11.0版本起添加的，本文描述了Hive查询执行计划的优化，以提高join效率并减少对用户提示...

Hive优化技巧：避免数据倾斜与Join策略

"Hive优化建议文档提供了针对Hive查询和作业执行的优化策略，包括对count(distinct)操作的处理、Map阶段优化、Join优化以及Reduce阶段优化的建议。" 在大数据处理中，Hive是一个重要的工具，但在处理大规模数据时，...