hive出现内存溢出_hive mapjoin 内存溢出异常

最新推荐文章于 2025-11-01 13:29:33 发布

原创最新推荐文章于 2025-11-01 13:29:33 发布 · 2.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#hive出现内存溢出

本文介绍了解决Hive中进行join操作时出现的内存溢出问题，提供了关闭自动mapjoin转换及调整内存大小两种解决方案。

部署运行你感兴趣的模型镜像

1.异常

在hive中两张表进行join操作时有时会出现如下错误：

Total MapReduce jobs = 4

2014-10-22 05:45:06 Starting to launch local task to process map join; maximum memory = 1065484288

2014-10-22 05:45:42 Processing rows: 200000 Hashtable size: 199999 Memory usage: 82761296 percentage: 0.078

出现错误的原因是任务在进行join操作时转换mapjoin将小表放进内存导致内存溢出。

2.解决办法：

解决办法由两种，一个是将自动mapjoin 转换关闭，另外一个是将内存调大：

2.1.关闭自动mapjoin 转换

修改配置文件关闭mapjoin

vim hive-site.xml

hive.auto.convert.join

false

2.2.将内存增大

hive.mapjoin.smalltable.filesize 默认值是25MB

修改内存大小

set mapreduce.map.memory.mb=2049;

set mapreduce.reduce.memory.mb=20495;

set hive.auto.convert.join=true;

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CharlesDDDD

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

HIVE SQL运行内存溢出OOM（MR/TEZ）：java.lang.OutOfMemoryError: GC overhead limit exceeded

wangkuangood3200的专栏

02-03

4426

【现象】今天用户反馈运行HQL作业失败，报OOM，于是来排查该问题查看tez，intialmap大量失败，重试失败。进入具体一个task，报错指向OOM，溢出原因是在单个map中产生大量对象导致。 HQL语句查询借据号——逾期金额信息，借据号重复率低，导致map维护key（借据号）-value（逾期金额信息）的内存超过了JVM配置的map进程内存大小限制，从而内存溢出。【原因】对于group by语句，在MR中，当数据量很大，且没有map聚合时，所有的记录将会被..

hive导入数据过大引起的内存溢出问题

weixin_72093863的博客

06-23

568

hive导入数据过大引起的内存溢出问题的解决方案本文章的解决方案主要围绕各项配置进行

参与评论您还未登录，请先登录后发表或查看评论

hive中与hbase外部表join时内存溢出（hive处理mapjoin的优化器机制）

weixin_30500663的博客

11-28

282

与hbase外部表（wizad_mdm_main）进行join出现问题： CREATE TABLE wizad_mdm_dev_lmj_edition_result as select * from wizad_mdm_dev_lmj_20141120 as w JOIN wizad_mdm_main as a ON (a.rowkey = w.guid); 程序启动后...

Hive 大表插入报 “内存溢出”：JVM 参数调优与分批次插入方案

热门推荐

yisun123456的博客

08-01

3万+

MapReduce作业运行过程中内存溢出错误分类 1、Mapper/Reducer阶段JVM内存溢出（一般都是堆） 1)JVM堆(Heap)内存溢出：堆内存不足时，一般会抛出如下异常：第一种：“java.lang.OutOfMemoryError:” GC overhead limit exceeded；第二种：“Error: Java heapspace”异常信息；第三种：“ru...

hive中内存溢出问题的解决方法.

LLDDDS的博客

09-11

2007

Error while processing statement: FAILED:Execution Error,return code 137 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 优化方法有一下几种: 一:是调大内存(Yarn和MR) 二:是开启有序动态分区，三:是关闭mapjoin 四:是分批执行计算五:是使用本地模式关闭mapjoin：set hive.auto.convert.join=false; 开启本地模式：se

hive任务内存溢出

hanxiucao_yes的博客

10-23

222

这个参数的mapjoin当链接两个表，一个小表和一个特别大表，会把比较小的表写进内存，那可能会发生内存溢出。hive任务有时会溢出，如GC overhead limit exceeded。这个有可能是参数设置问题。

pyspark写入mysql内存溢出_解决spark大量多次join计算导致的内存溢出

weixin_35662417的博客

02-02

1128

异常再现：从mysql取出数据，然后大量的聚合和join计算。大量的下面代码vardsTmp=ds2.where("RANK<=10").select("ID")ds1=ds1.join(ds1.join(dsTmp,"ID").groupBy("C_ID","S_ID").agg(round(avg("SCORE"),2).as("SCORE_AVG")),Seq("C_ID","S...

Spark用HiveUDF get_json_object内存泄漏问题

Deegue

11-17

996

1、问题背景首先我们支持Spark使用HiveUDF的实现，在某个任务中，executor GC时间普遍非常长，而Hive同样逻辑就没有问题。选取GC过长的一个executor，dump下内存，发现UDFJson对象非常大：于是推测其中存在内存泄漏。 2、问题排查本文代码为社区Spark master分支a834dba120 在解析SQL时我们可以看到注册UDF函数入口 Analyzer.scala：发现函数注册提供qualifiedName以及不覆盖已注册的函数 SessionCatalog

【Hive】 HiveServer2 内存溢出总结

扬_帆_起_航

08-02

1231

用户使用Beeline访问HiveServer2 (3.1.2版本) 执行离线SQL任务，持续运行一周后HiveServer2就出现OOM现象，严重影响数据查询与报表产出，经过几轮修复问题终于解决。作者把修复过的问题进行了汇总，避免其他小伙伴再遇到此问题时束手无策。笔者使用HiveServer2版本为3.1.2，由于此版本内存泄漏问题较多，大家可根据上述案例进行编译修复，如遇到其他BUG或性能问题，建议多去社区看看。

转载-Flink Sql on Zeppelin——双流Join

qq_31866793的博客

09-11

353

双流Join 概述其实之前和大家聊过双流Join，这次之所以再拉出来讲并不是在炒冷饭，而是发现了之前讲的一些不足以UnBounded Join来说，我之前一直以为，无论哪边的流先到，只要匹配上之后，key对应的、存储在state中的数据应该被清理。这样，无论哪边再来一条同样key的数据，不会触发数据下发，也就是一对一。其实这样的理解是错误的，key会一直存储在state中，直到OOM或者配置TTL之后被清理。那么，也就是会多次触发数据下发，也就是会发生一对多、多对多之前关于Time Inter

【hive】hive针对map、reduce端的内存溢出的一些session配置

Mrerlou的博客

08-05

994

主要是针对Mapreduce的，map端和reduce端的内存溢出做的一些参数优化。可能不是最优，仅供参考： map端内存溢出参数配置参考： set mapreduce.job.queuename=tj; set hive.mapjoin.smalltable.filesize = 500; set mapred.map.tasks = 20; set mapred.reduce.tasks = -1; set mapred.max.split.size=32000000; set mapred.min.s

黑猴子的家：Hive 扩展项目五之JVM堆内存溢出

黑猴子的博客

09-30

372

1、描述 java.lang.OutOfMemoryError: Java heap space 2、解决在yarn-site.xml中加入如下代码 ##允许最大MapReduce字节数 <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value&...

hive中的map join

H_hanwen的博客

11-18

2224

本文主要讲述一下自己在hive中使用map join遇到的一些问题。语言过于直白，请谅解 1.什么是map join？ map join主要是在关联的时候使用，hive开启map join后可以将关联的小表放入内存中去执行，以此来提高脚本的运行速度 2.map join如何设置？ set hive.auto.convert.join=false; --false表示关闭m...

记一则罕见的hive字段值异常引起map阶段的OOM

weixin_34007020的博客

05-19

282

前段时间遇到了一个很诡异的发生的Map阶段的OOM异常，花了些时间才找到原因，这个简要记录一下。先看log。节点一的TaskTracker的log：节点二的TaskTracker的log：节点三的TaskTracker的log：其他节点的TaskTracker中的log都和slave4的一样的：故障分析： OOM是一个比较常见的故障，其中发生在reduce阶段最为常见，最有...

ive运行异常： ERROR | main | Hive Runtime Error: Map local work exhausted memory

shengpli′s blog

07-23

381

hive 报错Starting to launch local task to process map join； maximum memory = 518979584 Exception

qq_15009447的博客

06-10

1052

Starting to launch local task to process map join; maximum memory = 518979584 Exception in thread “main” java.lang.OutOfMemoryError: Java heap space mapjoin的时候 OOM了。 MapJoin简单逻辑：读取小文件，缓存到distributeCache 再从cache里边读，和大表进行关联。简单来说就是这边把表读到内存中，内存塞不下了爆了OOM.

HIVE MapJoin异常问题处理总结

Make progress step by step everyday.....

06-29

3997

HIVE MapJoin异常问题处理总结转转： https://yq.aliyun.com/articles/64306 问题描述在跑hive作业的时候，偶尔会遇到下面的异常 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask 。

hive sql内存溢出

04-01

### Hive SQL 内存溢出解决方案在运行 Hive SQL 查询时，如果遇到内存溢出问题（`java.sql.SQLException: Error running query: java.lang.OutOfMemoryError: PermGen space`），可以通过以下方法来优化查询性能并解决问题。 #### 1. 调整 JVM 参数 Java 的永久代空间不足可能是导致 `PermGen space` 错误的原因之一。可以尝试通过调整 Hive 启动参数中的 JVM 配置来增加可用的堆内存和永久代空间大小[^1]： ```bash export HADOOP_CLIENT_OPTS="-Xmx4096m -XX:MaxPermSize=512m" ``` 上述命令将最大堆内存设置为 4GB (`-Xmx4096m`) 并将永久代空间扩展到 512MB (`-XX:MaxPermSize=512m`)。 --- #### 2. 使用 Limit 子句优化当使用 `LIMIT` 子句时，默认情况下 Hive 会先完成整个查询再截取前几条记录。这可能导致不必要的资源消耗。启用 `hive.limit.optimize.enable` 可以让 Hive 更早地终止无意义的任务，从而节省内存开销[^2]： ```sql SET hive.limit.optimize.enable=true; ``` 此配置允许 Hive 在满足 `LIMIT` 条件后立即停止进一步计算。 --- #### 3. 减少分区数量过多的小文件或未被有效裁剪的分区可能会显著增加 MapReduce 任务的数量，进而引发内存压力。建议采取以下措施减少分区的影响[^3]: - **分区裁剪**: 确保仅加载必要的分区数据。 ```sql WHERE partition_column='specific_value' ``` - **合并小文件**: 如果存在大量小文件，可利用工具如 `INSERT OVERWRITE TABLE ... SELECT * FROM table_name DISTRIBUTE BY (partition_key)` 将其重新分布成更大的块。 - **拆分大作业**: 对于超大规模的数据集，将其划分为多个较小规模的子任务分别处理后再汇总结果。 --- #### 4. 控制 Mapper 和 Reducer 输入数据量默认情况下，Mapper 每次读取固定大小的数据块进行处理。然而，在某些场景下，这些预设值可能并不适合实际需求。例如，每次只读取少量数据会导致频繁启动新实例；反之，则可能出现单个 Instance 占用过长时间的情况。因此可以根据具体情况动态调节相关参数: - 增加单个 Mapper 处理的数据量: ```sql SET mapreduce.input.fileinputformat.split.maxsize=134217728; -- 设置为 128M ``` - 或者降低它以便更好地适应硬件条件: ```sql SET odps.stage.mapper.split.size=<更小数值>; ``` 同样适用于 Reducers 数目控制: ```sql SET mapreduce.job.reduces=<适当并发数>; ``` --- #### 5. 解决数据倾斜问题数据倾斜是指某一部分 Key 所对应的数据远多于其他 Keys，造成个别 Task 过载甚至失败的现象。针对这种情况有几种常见策略可供选择: - 添加随机前缀打散热点键值； - 自定义 Partitioner 实现均匀分配逻辑； - 利用 Skew Join 提高效率。具体实现方式取决于业务背景以及现有架构特点。 --- ### 总结综合以上几点可以看出，解决 Hive SQL 中因内存不足而导致的各种异常状况需要从多个角度入手——既包括合理规划资源配置又涉及深入理解底层原理后的针对性改进方案实施过程之中不断摸索总结经验教训最终达到理想效果。