Hive mapjoin使用

最新推荐文章于 2022-09-02 18:08:02 发布

原创最新推荐文章于 2022-09-02 18:08:02 发布 · 1.8k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #后端

java 专栏收录该内容

314 篇文章

订阅专栏

方法一

set hive.auto.convert.join = true; --是否开自动mapjoin

set hive.mapjoin.smalltable.filesize;–mapjoin的表size大小

以上两个参数同时使用，在hive.auto.convert.join为true时，只要小表size小于hive.mapjoin.smalltable.filesize的设置值，并且小表不是关联操作的最后一张表，小表就会走mapjoin。

set hive.auto.convert.join = true;

set hive.mapjoin.smalltable.filesize = 6250000;

select * from table_1 --小表，size? 5m

join table_2

on 1=1;

方法二

sethive.ignore.mapjoin.hint; --true 注释方式不生效 false注释方式生效强行指定需要加入内存走mapjoin的表

set?hive.ignore.mapjoin.hint=true;

select /*+ mapjoin(table_1) */?

? ? *?

from table_2

join table_1?--小表，size??5m

on 1=1;

如果mapjoin生效会在mr日志中看到以下打印日志

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

geejkse_seff

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

优化 | Hive Join 优化之 Bucket Map Join 实践

SmartSi

10-04

566

Hive的Bucket Map Join是一种优化大表Join大表的技术，要求两表均为分桶表且桶数量成倍数关系。使用时需手动添加Hint提示并配置相关参数（如关闭CBO优化）。以订单表关联支付表为例，优化前使用Common Join需MapReduce作业完成，而Bucket Map Join可显著提升性能。执行计划显示优化前包含两个阶段：MapReduce阶段和结果返回阶段。

【Hive】性能调优 - Map JOIN

qq_40382400的博客

06-03

1109

map-side JOIN可以省掉reduce过程，从而提高Hive效率；Hive 0.11.0版本后，默认开启自动map-side JOIN优化，我们需要合理调整hive.auto.convert.join.noconditionaltask.size参数值。

参与评论您还未登录，请先登录后发表或查看评论

Hive中使用MAP JOIN

weixin_34038652的博客

12-16

427

1 概述若所有表中只有一张小表，那可在最大的表通过Mapper的时候将小表完全放到内存中，Hive可以在map端执行连接过程，称为map-side join，这是因为Hive可以和内存的小表逐一匹配，从而省略掉常规连接所需的reduce过程。即使对于很小的数据集，这个优化也明显地要快于常规的连接操作。其不仅减少了reduce过程，而且有时还可以同时减...

Hive的优化

huo386680070的博客

08-10

249

1.MapJoin sethive.auto.convert.join=true; hive.mapjoin.smalltable.filesize默认值是25mb 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。 2.采用分桶技术分桶是对数据垂直切分，字段是实字段，适合易于垂直切分.

Hive 3种map join

炼数成器

09-02

2398

3种map join

hive使用mapjoin

qq_28069031的博客

03-19

786

hive 显示使用mapjoin hive> set hive.auto.convert.join=true; hive> set hive.auto.convert.join; hive.auto.convert.join=true hive> SELECT – 可以显示的指定如下这一行mapjoin 关键词。 /+mapjoin(b)/ a.date,a.page_id,...

hive中的mapjoin

yycdaizi的专栏

12-03

1万+

在Hive中，common join是很慢的，如果我们是一张大表关联多张小表，可以使用mapjoin加快速度。 mapjoin主要有以下参数： hive.auto.convert.join ：是否自动转换为mapjoin hive.mapjoin.smalltable.filesize : 小表的最大文件大小，默认为25000000，即25M hive.auto.convert.join.noc

Hive Map Join

lavimer

01-29

2909

Hive中的Map Join即map side join工作原理是在Map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作。MapJoin使用了分布式缓存技术。 Map Join的优点： 1.不消耗集群的reduce资源。 2.减少了reduce操作，加快了程序执行。 3.降低网络负载。 Map Join的缺点： 1.占用内存(所以加载到内存中的表不能过大，因为每个计算节

hive的map-join原理

CLKTOY的博客

11-08

1284

目录1- Join如何运行2- 使用分布式缓存3- 根据文件大小将Join转换为MapJoin4- Example 1- Join如何运行首先，让我们讨论一下 Join 如何在Hive中运行。Common Join 操作如图1所示被编译为 MapReduce 任务。Common Join 任务涉及 Map 阶段和 Reduce 阶段。Mapper 从连接表中读取数据并将连接的 key 和连接的 value 键值对输出到中间文件中。Hadoop 在所谓的 shuffle 阶段对这些键值对进行排序和合并。Re

hive的map join

MannerXu的博客

08-30

454

Hive的map join 什么是Map Join? MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。 Map Join的原理？即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。通常情况下，要连接的各个表里面的数据会分布在不同的Map中进行处理。即同一个Key对应的Value可能存在不同的Map中。这样.

hive mapreduce任务启动mapjoin失败，return code 3

qq_42265026的博客

04-25

1529

hive mapreduce任务启动mapjoin失败，return code 3设置hive的自动加载小表大小出现问题调整map任务内存远程dubug源码问题解决 PS：解决方法只针对问题Hive Runtime Error: Map local work exhausted memroy，内存耗尽的错误。前面说的都是解决问题过程，可自行跳过，解决方法在最后。之前处理过的一个需求，有一批ur...

hive 大小表mapjoin 遇到udf失效问题

a312428841的博客

12-02

938

hive 大小表mapjoin 遇到udf失效问题执行结果有三个重要信息： /tmp/liangxin/liangxin_20201026173636_ddccc70a-1019-49d4-9cc8-6b072023187a.log Stage-4 /tmp/liangxin/hive.log 问题分析：打开第一个文件发现udf函数没找到，对比执行sql，on dwc_mart.transtring(a.altitem)=dwc_mart.transtring(b.pa_code)

HIVE跑mapjoin时所有任务失败--问题分析及解决

zhangxiong0301的专栏

09-22

1829

今天有个需求，就是：指定200W用户（表meids_tmp），把这些用户最近15天的应用使用数据（表tb_yl_upload_info,按天分区）转移到另外一张表中（表upload_info_sub，按天分区）。很直观，meids_tmp表63M，可以使用map端连接；要求目标表数据按日期组织，自然想到动态分区，使数据插入时自动按日期写入。最终，得到...

hive之mapjoin

weixin_36630761的博客

12-11

2657

hive 的mapjoin起作用了我们如何确定？只是inner join 的时候看日志吧，最为直观： 2021-12-10 12:05:41 Starting to launch local task to process map join; maximum memory = 954728448 2021-12-10 12:05:44 Processing rows: 200000 Hashtable size: 199999 Memory usage: 135058920 percentage:

hive 中mapjoin 出现情况分析

qq_26645205的博客

01-02

903

1.当两个表join的时候，当一方表数据量比较小的时候，运行hive的时候会自动进行mapjoin，但是进行mapjoin数据又跑不动，现在需要运行的时候加一句：关闭mapjion set hive.auto.convert.join = false; 2.mapjoin 优化，使用一张表数据小于1000行 3. ...

hive之Map Join使用方法

最新发布

03-13

<think>嗯，用户想了解Hive中Map Join的工作原理，并且希望用图表来展示。首先，我需要回忆一下Hive的Map Join相关知识。记得Map Join主要是为了优化小表和大表的连接操作，避免Shuffle和Reduce阶段的开销。根据用户提供的引用内容，MapJoin是在Map阶段将小表加载到内存中，生成HashTableFiles，然后处理大表的数据进行连接。接下来，我需要整理Map Join的工作步骤。首先，驱动表应该是小表，对吧？Hive会自动识别小表的大小，如果符合条件就会启用Map Join。然后，在Map阶段，小表的数据会被读取到内存，并构建成哈希表。之后处理大表的每个记录，用连接键去哈希表里查找匹配项，合并结果直接输出。整个过程不需要Shuffle和Reduce，这样效率更高。用户提到需要图解，虽然文本形式无法画图，但可以通过文字描述图表的结构。例如，流程图分Map阶段和可能的Distributed Cache步骤。需要确保每个步骤对应引用中的内容，比如引用[1]和[3]提到的小表加载和分布式缓存的作用。可能还需要比较Common Join和Map Join的区别，如引用[2]和[4]中的Common Join流程，涉及Shuffle和Reduce阶段。另外，用户可能对优化细节感兴趣，比如为什么使用分布式缓存，或者小表的大小限制。根据引用[3]，当大量Mapper同时读取小表时，可能会有性能问题，所以用分布式缓存来缓解。这部分需要解释清楚，避免用户混淆。然后，生成相关问题时要考虑用户可能的后续疑问，比如如何配置小表大小、Map Join的限制，或者性能调优的方法。这些问题需要基于已有的引用内容，确保答案的相关性和准确性。最后，确保整个回答符合格式要求：行内公式用$，独立公式用$$，正确的中文回答，结构清晰。同时，引用标识要正确对应，比如引用[1]对应MapJoin的基本原理，引用[3]对应分布式缓存的作用，引用[4]对比Common Join的流程。总结一下，回答的结构应该是先解释工作原理，分步骤描述，然后对比Common Join，再用文字图表展示流程，最后列出相关问题。需要确保每个关键点都有对应的引用支持，并且语言简洁明了，便于用户理解。</think>### Hive Map Join 工作原理图解说明 #### 一、核心原理 MapJoin 是 Hive 在 Map 阶段完成表连接的一种优化手段，**适用于小表（维度表）与大表（事实表）的 Join 操作**。其核心步骤如下： 1. **小表加载**：将小表数据从 HDFS 读取到内存，构建为 **哈希表（HashTable）**[^1]。 2. **大表处理**：顺序扫描大表，逐行用 Join Key 查询内存中的哈希表，匹配后直接输出结果[^3]。 3. **规避 Shuffle/Reduce**：整个过程仅在 Map 阶段完成，无需数据重分区和 Reduce 阶段[^2]。 #### 二、流程对比（文字图表） ``` |---------------MapJoin 流程---------------| 1. 驱动表（小表） │ ├─ 从 HDFS 加载到内存 → 构建哈希表（Key: Join列，Value: 其他列） │ 2. 被驱动表（大表） │ ├─ 逐行扫描大表数据 │ ├─ 用 Join Key 查询内存哈希表 │ └─ 匹配成功则合并两表数据 → 直接输出结果 ``` #### 三、与 Common Join 对比 | **特性** | **MapJoin** | **Common Join** | |------------------|--------------------------------------|--------------------------------------| | **执行阶段** | 仅 Map 阶段 | Map + Shuffle + Reduce 阶段 | | **数据移动** | 无 Shuffle | 需按 Key 分区到 Reducer[^4] | | **适用场景** | 小表（几十MB内） | 大表间 Join | | **性能瓶颈** | 小表加载内存的并行度[^3] | Shuffle 网络开销和 Reducer 计算压力 | #### 四、优化扩展 - **分布式缓存**：当小表较大时，通过分布式缓存（Distributed Cache）将哈希表分发给所有 Mapper，避免集中读取 HDFS 的性能瓶颈。 - **自动触发条件**：Hive 默认根据 `hive.auto.convert.join` 参数判断小表大小（如 `hive.mapjoin.smalltable.filesize=25MB`）。