Hive使用双重GroupBy解决数据倾斜问题

原创

已于 2024-02-18 19:47:16 修改 · 1.1k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hive #hadoop #数据仓库

于 2024-02-18 19:46:39 首次发布

文章目录

1.数据准备
2.双重group by实现解决数据倾斜
- 2.1 第一层加盐group by
- 2.2 第二层去盐group by

1.数据准备

create table wordcount(a string) row format delimited fields terminated by ‘,’;

load data local inpath ‘opt/2.txt’ into table wordcount;

hive (default)> select * from wordcount;
OK
wordcount.a
b
a
a
a
a
b
b
c
c
e
d

2.双重group by实现解决数据倾斜

随机数：ceil(rand()*10)

select split(salt_a,‘‘)[1] alpah ,sum(count) from
(
select concat_ws(’’,cast(ceil(rand()*10) as string),a) salt_a,count(1) count from wordcount group by concat_ws(‘‘,cast(ceil(rand()*10) as string),a)
) b group by split(salt_a,’’)[1];

alpah _c1
a 4
b 3
c 2
d 1
e 1

解析:

2.1 第一层加盐group by

select concat_ws(‘‘,cast(ceil(rand()*10) as string),a) salt_a,count(1) count from wordcount group by concat_ws(’’,cast(ceil(rand()*10) as string),a)
sal

最低0.47元/天解锁文章

200万优质内容无限畅学

黄土高坡上的独孤前辈

博客等级

码龄8年

153
原创

409
点赞

824
收藏

573
粉丝

关注

私信

热门文章

分类专栏

Hive/Kylin数据仓库 25篇
Utils 2篇
Mysql 7篇
Flink 13篇
Java 8篇
机器学习与深度学习 17篇
数据质量
Hadoop 10篇
读书笔记 6篇
财务自由之路 24篇
maven 2篇
git 1篇
职场之路 1篇
Python 6篇
PPT 1篇
Linux 9篇
flume 5篇
JVM 1篇
canal
Kafka 3篇
Spark 6篇
Sqoop 1篇
Zookeeper
English doc
Phoenix/Hbase

展开全部收起

上一篇：: 第 14 章程序员常用算法

下一篇：: 大数据之Flink优化

最新评论

Hive on Spark优化
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619556723。
Hive3.x版本调优总结
穷苦书生_万事愁: 这篇关于Hive3.x版本调优总结的文章真是让我大开眼界！博主的描写细节非常到位，让我对这个主题有了全新的认识。文章内容不仅有深度，还展现了博主深厚的功底和丰富的经验。期待博主未来能够持续分享更多这样有价值的文章，也希望能够得到博主的指导，一起共同进步。感谢博主的分享和支持！
Hive mapreduce的map与reduce个数由什么决定？
gonghui_gonghui: set mapreduce.job.reduces=-1 ，默认情况下是-1，设置回去就可以了吧。
Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用
renshen4322: TimedataAssignerWithPeriodicWatermarks 这个是自定义的吧
使用Java将图片转成Base64编码，并压缩至40k
VinciJong: 这个方法名不太专业啊

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。