hive调优之group by

最新推荐文章于 2023-05-02 18:17:23 发布

m0_46325925

最新推荐文章于 2023-05-02 18:17:23 发布

阅读量248

点赞数

分类专栏：笔记

本文链接：https://blog.youkuaiyun.com/m0_46325925/article/details/114299179

版权

笔记专栏收录该内容

23 篇文章

订阅专栏

1、设置map端聚合（默认我true）
set hive.map.aggr=true;
2、在map端设置进行聚合的条数数目
set hive.groupby.mapaggr.checkinterval= 数据条数
3 、开启负载均衡
set hive.groupby.skewindata=true;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_46325925

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive 调优

分享~

05-15

2739

摘要：hive调优

hive性能调优详解系列之hive语法和参数层面调优_数仓工程师必备hive调优方案

老姜的数据江湖

10-27

2048

hive作为数仓工程师必不可缺少的计算组件，在工作中经常遇到一些调优问题，本篇文章是hive性能调优详解系列之第二篇hive语法层面调优。上一篇可点击hive建表设计层面调优一.hive语法层面和参数调优 hive语法和参数调优将是hive调优一大重点，并能间接解决数据倾斜问题，同事提升运行效率也是重中之重。 1.1查看hive执行计划 Hive的SQL语句在执行之前需要将SQL语句转换成MapReduce任务，因此需要了解具体的转换过程，可以在SQL语句中输入如下命令查看具体的执行计划。 ##查看执

参与评论您还未登录，请先登录后发表或查看评论

Hive Group By

song_quan_的博客

12-03

1089

默认情况下，Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时就倾斜了。并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。 1）开启 Map 端聚合参数设置（1）是否在 Map 端进行聚合，默认为 True set hive.map.aggr = true （2）在 Map 端进行聚合操作的条目数目 set hive.groupby.

hive group by

luyee2010的专栏

07-23

4335

group by 操作： 1，Map端聚合：Map端进行部分聚合 hive.map.aggr用于设定是否在Map端进行聚合，默认hive.map.aggr=true,version:0.10.0 另外，hive.groupby.mapaggr.checkinterval=100000用于设定Map端进行聚合的操作条目 2，数据倾斜： hive.groupby.skewdata设定是否在数

Hive性能调优之Group By

寒暄的博客

07-17

1268

默认情况下，map阶段同一key数据分发给同一reduce，如果单一key过大就很容易造成数据倾斜。（100条数据分组后一组90条，一组10条，这就会数据倾斜）这样的话，我们就可以预先在map端进行一些聚合操作，减轻reduce端的压力。常用参数： --是否在 Map 端进行聚合，默认为 True hive.map.aggr = true --在 Map 端进行聚合操作的条目数目 hive.groupby.mapaggr.checkinterval = 100000 --有数据倾斜的时候进行负载均衡（默

Hive-Group by的优化(解决数据倾斜的问题)

weixin_43586713的博客

10-20

2375

Group by 默认情况下，Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时就倾斜。为了解决group by数据倾斜的情况,可以采用Map端数据聚合的操作。 1）开启 Map 端聚合参数设置（1）是否在 Map 端进行聚合，默认为 True set hive.map.aggr = true （2）在 Map 端进行聚合操作的条目数目 set hive.groupby.mapaggr.checkinterval = 100000 （3）有数据倾斜的时候进行负

hive调优方式

Naerdoy的博客

03-29

3667

1.fetch（hive可以避免MapRedice）对于hive可以简单地读取employee对应的储存目录下的文件，然后输出查询结果到控制台，修改hive.fetch.task.conversion的参数为more即可 2.本地模式设置数据出入量，设置local mr的最大输入文件个数，当输入文件滆湖小于这个值时采用local mr的方式，默认为4 3.表的优化 1.小表join大表将key相对分散,并且数据量小的表join的左边,这个可以有效减少内存溢出错误发生的几率,在进一步可以使用gr.

Hive系列 (十)：Hive调优

Eric Ray的博客

09-09

3166

Hive优化详细解释

Hive调优策略之SQL优化

凉茶铺的博客

10-17

3068

介绍了hive如何从sql层面进行调优

Hive优化

君子性非异也善假于物也

01-12

381

Hive 优化核心思想：把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Explain 显示执行计划 EXPLAIN [EXTENDED] query Hive运行方式：本地模式集群模式本地模式开启本地模式： set hive

Hive优化相关（数据倾斜、join优化，分组聚合优化）

Li解Code的博客

05-02

835

一篇文章带你了解Hive SQL的优化（数据倾斜、join优化，分组聚合优化），以及相关参数设置。

hive数据倾斜优化策略

大JAVA解决方案

10-28

339

hive数据倾斜优化策略 Hive数据倾斜 Group By 中的计算均衡优化 1.Map端部分聚合先看看下面这条SQL，由于用户的性别只有男和女两个值（未知）。如果没有map端的部分聚合优化，map直接把groupby_key 当作reduce_key发送给reduce做聚合，就会导致计算不均衡的现象。虽然map有100万个，但是reduce只有两个在做聚合，每个reduce处理100亿条记录。 selectuser.gender,count(1) f...

Hive常见set的配置设置

weixin_46433065的博客

09-25

3160

Hive常见set的配置设置设置reduce数量（默认值-1） set mapred.reduce.tasks=100; set mapreduce.job.reduces=3; 修改表为内部表 set tblproperties('EXTERNAL'='FALSE'); 开启分桶表（默认false） set hive.enforce.bucketing=true; 开启Hive中间传输数据压缩功能 set hive.exec.cmpress.intermediate=true; 开启mapreduce

HIVE性能调优之GROUP BY# 数据倾斜

zhuzhen123zhuzhen的博客

09-23

711

默认情况下，map阶段同一key数据分发给同一reduce，如果单一key过大就很容易造成数据倾斜。（100条数据分组后一组90条，一组10条，这就会数据倾斜）这样的话，我们就可以预先在map端进行一些聚合操作，减轻reduce端的压力。常用参数： –是否在 Map 端进行聚合，默认为 True set hive.map.aggr = true –在 Map 端进行聚合操作的条目数目 set hive.groupby.mapaggr.checkinterval = 100000 –有数据倾斜的时候进行负

Hive知识归纳——详解 hive 各个知识点

大数据技术分享

06-03

1072

有点标题党了，但是大部分常用知识点也算是涉及到了，希望对你有帮助 Hive是什么？概念从概念上讲：由Facebook开源的一款基于hadoop的用于统计海量结构化数据的一个数据仓库。从本质上讲：将HQL语句转换成MapReduce程序的一个工具。产生：让了方便非java开发人员对hdfs上的数据做 MapReduce 操作 ...

hive的一些调优参数

朝和

10-15

2678

很久以前存的，忘记是从哪篇文章扒拉下来的，里面有很多开发中会用到的参数，希望可以方便大家使用（其实记录这些也是方便后面用到的时候自己方便查看，本地存的东西有点乱了，打算换个地方再存一份）。 set hive.support.concurrency = true; 关闭表锁机制 show locks 查看表锁 set hive.enforce.bucketing = true; set hive.exec.dynamic.partition.mode = nonstrict; set hive...

hive优化的总结

qq_44665283的博客

06-18

4495

hive优化的全面总结

hive的查询注意事项以及优化总结 .

weixin_33836874的博客

06-20

782

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则： 1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段 select ... from A join B ...

hive调优

最新发布

03-08

### Hive 性能调优的最佳实践 #### 合理设置执行引擎为了提升Hive查询的执行效率，可以选择更高效的执行引擎。`hive.execution.engine` 参数决定了使用的执行框架，在处理大规模数据集时推荐采用Tez作为执行引擎[^4]。 ```sql SET hive.execution.engine=tez; ``` 这有助于充分利用集群资源，加速复杂查询过程中的计算任务完成速度。 #### 更新统计信息利用 `ALTER TABLE` 命令维护表结构的同时也应关注统计数据的准确性。精确的元数据可以帮助Hive编译器构建最优查询计划，进而改善整体性能表现[^1]。 ```sql ANALYZE TABLE table_name COMPUTE STATISTICS; ``` 此命令用于收集有关整个表格的信息；对于分区表，则可通过指定具体分区来获取相应部分的数据特征： ```sql ANALYZE TABLE table_name PARTITION (partition_spec) COMPUTE STATISTICS; ``` #### 维护最新分区信息针对含有大量分区的大规模分布式存储环境而言，保持最新的分区列表至关重要。定期执行 `MSCK REPAIR TABLE` 可确保新增加或修改过的分区被正确识别并加入到现有架构之中。 ```sql MSCK REPAIR TABLE table_name; ``` #### 减少小文件数量过多的小型文件会对I/O造成压力，影响读取速率。借助于 `COMPACT` 或者 `OPTIMIZE` 操作可以有效地合并零碎文件片段，降低磁盘访问频率，增强吞吐量。 ```sql ALTER TABLE table_name COMPACT 'MAJOR'; -- OR -- OPTIMIZE table_name ZORDER BY column_list; ``` ZOrdering是一种特别有效的技术，它不仅减少了不必要的Shuffle操作次数，而且还能促进更好的压缩效果。 #### 单次扫描多用途当面对同一张表需实施多项独立却又相互关联的操作需求时，尽可能尝试一次性完成全部工作流程而非分批逐步推进。这样做的好处是可以节省重复加载相同数据所带来的开销成本，提高总体工作效率[^5]。例如，可以在同一个CTAS(Create Table As Select)语句里实现过滤、转换以及汇总等多项逻辑运算： ```sql CREATE TABLE new_table AS SELECT * FROM source_table WHERE condition GROUP BY group_columns HAVING having_condition; ``` #### 数据倾斜处理策略遇到因键分布不均而导致的部分节点负载过重情况时，可以通过调整Join方式（如Map Join）、增加广播变量或是重新分配Key等方式缓解此类现象带来的负面影响。 ---