Hive调优

原创于 2024-08-13 16:10:40 发布 · 448 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

一：参数调优

1.map和reduce的container的 cpu数和内存数调大

2.slowStart参数，这个参数就是设置map任务完成多少后，才启动reduce的参数

3.合并小文件的参数

二：sql调优

1.避免使用select * 因为会导致map端输出数据的时候，量比较大，本质就是列裁剪

2.有分区表的时候，一定是先过滤分区数据，本质就是分区裁剪

3.谓词下推：就是先使用where 对过滤条件中的数据进行过滤

4.Count(distinct) 会出现一个reducer的情况，所以基本上都是使用group by 进行代替

5.全局排序，取前N名时，必须使用order by。但是order by会导致出现一个reducer的情况，所以可以先使用 distribute by ... sort By ...limit 先进行分区内部取前N名最后套一层再用 order by，那么这个reducer 处理的数据量就小了很多

6.碰到那种可预见性的两张大表关联，可以给对这两张表创建分桶表

7.做hive 的join时，在业务允许的情况下，一定要提前去重，否则会出现数据膨胀的情况（笛卡尔积）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mbb小马

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hadoop、Spark和Hive调优优化原理

AI天才研究院

08-03

1390

1995年伊藤博文等人提出了MapReduce计算框架，将海量的数据分布式地处理在多台计算机上，并通过分割输入数据集并将其划分为多个任务来并行执行计算，最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升，当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架，包括Hadoop、Pig、Hive、Mahout、Storm等。

Hive参数调整详细

someInNeed的博客

11-08

2545

--压缩配置： -- map/reduce 输出压缩（一般采用序列化文件存储） set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type=BLOCK; --任务中间压缩 set hive.exec.compress.intermediate=true; set hi.

参与评论您还未登录，请先登录后发表或查看评论

Hive调优之计算资源配置(一）

weixin_44318460的博客

09-21

3811

hive调优

Hive调优（简略版）

奇迹虎虎的博客

02-16

1645

Hive调优（简略版），hive分区优化，内存溢出等...

13.107.最全的Hive 优化方案汇总：临时参数的作用域、切分大文件、合并小文件、设置 Map 和 Reduce 的内存大小、设置 Map 和 Reduce 的堆大小设置等

涂作权的博客

08-31

1537

13.107.最全的Hive 优化方案汇总：1.1.8. 临时参数的作用域：1.1.10.切分大文件1.1.11.合并小文件1.1.12.设置 Map 和 Reduce 的内存大小1.1.13.设置 Map 和 Reduce 的堆大小设置1.1.14.开启Combiner功能：在map端预聚合1.1.15.拓扑图，优化并行执行1.1.16. 万能方法1：一个MR，拆成多个（即纵向拆分），为了降低数据倾斜的压力。【比较少用】

hive on spark 时，executor和driver的内存设置，yarn的资源设置

m0_37759590的博客

02-18

2611

hive on spark 时，executor和driver的内存设置，yarn的资源设置。

hive 入门配置堆内存 (八)

weixin_43205308的博客

04-11

668

新版本的Hive启动的时候，默认申请的JVM堆内存大小为256M，JVM堆内存申请的太小，导致后期开启本地模式，执行复杂的SQL时经常会报错：java.lang.OutOfMemoryError: Java heap space，因此最好提前调整一下HADOOP_HEAPSIZE这个参数。

Hive调优全方位指南.pdf

12-28

Hive调优全方位指南，总结了25条关于Hive调优的经验，对于大数据及hive工程师是不可多得的资源。

Hive 调优

分享~

05-15

3260

摘要：hive调优

黑猴子的家：Hive 扩展项目五之JVM堆内存溢出

黑猴子的博客

09-30

372

1、描述 java.lang.OutOfMemoryError: Java heap space 2、解决在yarn-site.xml中加入如下代码 ##允许最大MapReduce字节数 <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value&...

hive 内存溢出 hive设置内存大小

qq_51867867的博客

09-19

2404

hive 内存溢出 hive设置内存大小转载Hive 调优指南Apache Hive 是一个基于 Hadoop 的数据仓库解决方案，用于查询和分析大量的结构化数据。为了提高 Hive 查询性能和效率，本文将介绍一些 Hive 调优的策略和方法。

hive参数设置

stable_zl的博客

07-16

6656

一、内存设置 set mapreduce.map.memory.mb=4096;// 每个Map Task需要的内存量 set mapreduce.map.java.opts=-Xmx3276M; // 每个Map Task 的JVM最大使用内存 set mapreduce.reduce.memory.mb=4096; // 每个Reduce Task需要的内存量 set mapreduce.reduce.java.opts=-Xmx3276M; // 每个Reduce Task 的JVM最大使用内存 se

调整Hive查询临时内存大小的方法

weixin_42326851的博客

01-10

2552

调整Hive查询临时内存大小的方法

Hive所有的配置总结转载

li793829630的博客

11-23

1089

hive的配置： hive.ddl.output.format：hive的ddl语句的输出格式，默认是text，纯文本，还有json格式，这个是0.90以后才出的新配置； hive.exec.script.wrapper：hive调用脚本时的包装器，默认是null，如果设置为python的话，那么在做脚本调用操作时语句会变为python hive.exec.plan：hive执行计划的文件路径，默认是null，会在运行时自动设置，形如hdfs://xxxx/xxx/xx； hive.exec.scratch

MapReduce 参数优化

大数据流浪法师的学习笔记与分享

11-26

443

MapReduce重要配置参数 1 资源相关参数以下调整参数都在mapred-site.xml这个配置文件当中有 //以下参数是在用户自己的mr应用程序中配置就可以生效 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。 (2) mapreduce.red...

hive 调优

Hive调优

一 ：参数调优

二：sql调优

一：参数调优