Hive中的Map join 简单了解

最新推荐文章于 2024-08-01 08:57:56 发布

月光疾风的三日月之舞

最新推荐文章于 2024-08-01 08:57:56 发布

阅读量614

点赞数 1

分类专栏： hive 文章标签： MapJoin

本文链接：https://blog.youkuaiyun.com/Bruce_Selina/article/details/102533567

版权

本文介绍了Hive中的MapJoin，这是一种针对Reduce join的优化策略。内容包括MapJoin的概念、基本工作原理、相关参数配置以及适用的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hive中的join可以分为Map join与Reduce join(也叫Common join或Shuffle join),Map join是相对于Reduce join的一种优化。

什么是MapJoin

MapJoin是在Map阶段进行表之间的连接，而不需要进入到Reduce阶段才进行连接，
这样省去Shuffle和Reduce的过程，大大降低了Job的运行时间。

MapJoin的基本原理

简单来说:
先将小表加载到程序的内存中，再和Map出来的表进行join，从而加快join的执行速度。

MapJoin的相关参数设置

在hive0.7.0到0.10.0版本,参数 hive.auto.convert.join 默认是false
在hive0.11.0到之后的版本,参数 hive.auto.convert.join 默认是ture
可以在命令行工具中 set hive.auto.convert.join = ture 开启自动MapJoin转换
默认hive.mapjoin.smalltable.filesize = 25000000 默认小表最大25M

注意:
如果 set hive.auto.convert.join = ture 之后 MapJoin不起作用，可以尝试以下操作
hive.auto.convert.join = false
hive.ignore.mapjoin.hint = false

MapJoin适用的场景

 1. 并不是所用场景都适合用MapJoin
 2. 在表的join中要有一个小表,小表可以放在内存中而不影响性能
 3. 需要进行不等值join操作

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

月光疾风的三日月之舞

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive Map Join

lavimer

01-29

2806

Hive中的Map Join即map side join工作原理是在Map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作。MapJoin使用了分布式缓存技术。 Map Join的优点： 1.不消耗集群的reduce资源。 2.减少了reduce操作，加快了程序执行。 3.降低网络负载。 Map Join的缺点： 1.占用内存(所以加载到内存中的表不能过大，因为每个计算节

hive之Map Join使用方法

ImezZ

04-08

1万+

介绍 MAPJION会把小表全部加载到内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。如上图中的流程，首先Task A在客户端本地执行，负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中。接下来的Task B任务是一个没有Reduce的MapReduce，启动MapTasks扫描大表...

1 条评论您还未登录，请先登录后发表或查看评论

Hive MapJoin

wisgood的专栏

11-10

1361

摘要MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率使用方法一：在Hive0.11前，必须使用MAPJOIN来标记显示地启动该优化操作，由于其需要将小表加载进内存所以要注意小表的大小SELECT /*+ MAPJOI...

hive中的map join

H_hanwen的博客

11-18

2112

本文主要讲述一下自己在hive中使用map join遇到的一些问题。语言过于直白，请谅解 1.什么是map join？ map join主要是在关联的时候使用，hive开启map join后可以将关联的小表放入内存中去执行，以此来提高脚本的运行速度 2.map join如何设置？ set hive.auto.convert.join=false; --false表示关闭m...

hive的map join原理

窗外的屋檐

03-28

6060

什么是MapJoin? MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。 MapJoin的原理：即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。通常情况下，要连接的各个表里面的数据会分布...

Hive-mapjoin

weixin_42177380的博客

06-03

296

hive的高级查询设置mapjoin二种方式第一种： set hive.auto.convert.join=true; 第二种查询时： select /*+mapjoin(n)*/ age from table1 join on xx=xx; 建表： create table test1(cookieid string,cookietime string,pv int); 测试数据： ...

hive的map join

MannerXu的博客

08-30

392

Hive的map join 什么是Map Join? MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。 Map Join的原理？即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。通常情况下，要连接的各个表里面的数据会分布在不同的Map中进行处理。即同一个Key对应的Value可能存在不同的Map中。这样.

hive的map-join原理

CLKTOY的博客

11-08

1177

目录1- Join如何运行2- 使用分布式缓存3- 根据文件大小将Join转换为MapJoin4- Example 1- Join如何运行首先，让我们讨论一下 Join 如何在Hive中运行。Common Join 操作如图1所示被编译为 MapReduce 任务。Common Join 任务涉及 Map 阶段和 Reduce 阶段。Mapper 从连接表中读取数据并将连接的 key 和连接的 value 键值对输出到中间文件中。Hadoop 在所谓的 shuffle 阶段对这些键值对进行排序和合并。Re

Hive的mapjoin原理与参数说明

xiaozhaoshigedasb的博客

04-01

5995

一、 Map Join原理 Map Join介绍 MapJoin顾名思义，就是在Map阶段进行表之间的连接，map阶段直接拿另外一个表的数据和内存中表数据做匹配。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。通常用于一个很小的表和一个大表进行join的场景。 MapJoin的原理及过程执行过程如上图：首先是在...

hive map join

weixin_47699191的博客

07-29

309

hive map join map join 默认开启不管大小表放左边还是右边,自动将小表放入内存,然后在map端顺序扫描大表跟内存中的数据进行join a 大表 user_id oid 0001,B 0001,A 0002,C 0003,D 0001,E 0001,F 0004,W 0001,Z b 小表 user_id name 0001,王 0002,刘 0003,赵 0004,高 sql select a.user_id, a.oid, b.name from a join b on a.u

hive之mapjoin

weixin_36630761的博客

12-11

2571

hive 的mapjoin起作用了我们如何确定？只是inner join 的时候看日志吧，最为直观： 2021-12-10 12:05:41 Starting to launch local task to process map join; maximum memory = 954728448 2021-12-10 12:05:44 Processing rows: 200000 Hashtable size: 199999 Memory usage: 135058920 percentage:

hive mapjoin使用

热门推荐

xqy1522的专栏

08-18

5万+

今天遇到一个hive的问题，如下hive sql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数

Hive MapJoin?

weixin_34318326的博客

04-22

为什么80%的码农都做不了架构师？>>> ...

hive中的mapjoin

hellojoy的博客

05-29

1535

在Hive中，common join是很慢的，如果我们是一张大表关联多张小表，可以使用mapjoin加快速度。 mapjoin主要有以下参数： hive.auto.convert.join ：是否自动转换为mapjoin hive.mapjoin.smalltable.filesize : 小表的最大文件大小，默认为25000000，即25M hive.auto.convert.join.noconditionaltask ：是否将多个mapjoin合并为一个 hive.auto.convert.jo

什么是 Hive 的 Map Join？

My_wife_QBL的博客

08-01

1493

Map Join 是 Hive 中一种有效的优化 Join 操作的技术，能够显著提高查询性能。在处理小表与大表的 Join 时，Map Join 通过在 Mapper 阶段进行连接，避免了 Shuffle 和 Sort 的开销，从而提升了性能。

Hive优化--Map Join

yyGeek的博客

03-09

547

适用场景：大表join小表Map Join算法可以通过两个只有map阶段的Job完成一个join操作。

hive使用mapjoin

qq_28069031的博客

03-19

759

hive 显示使用mapjoin hive> set hive.auto.convert.join=true; hive> set hive.auto.convert.join; hive.auto.convert.join=true hive> SELECT – 可以显示的指定如下这一行mapjoin 关键词。 /+mapjoin(b)/ a.date,a.page_id,...

Hive内置提供的优化机制之一：MapJoin

hellojoy的博客

03-30

1577

我在用HiveQL完成第七周作业第二题（详情见http://f.dataguru.cn/thread-237102-1-1.html）时发现。HIVE仅仅用了一个Mapreduce Job就完成了任务。而我在用Java程序时却很难用一个Mapreduce Job来完成，最后用了二个JOB才完成。通过阅读有关资料才发现。这就是Hive内置提供的优化机制之一：MapJoin。在学Map-Red

hive 开启map join