Hive数据倾斜--处理方法

原创

于 2024-07-03 10:21:56 发布 · 706 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

1. 什么是数据倾斜？

在分布式计算场景下，大量的数据集中在某一个节点而导致一个任务的执行时间变长。而大量的节点只处理了小部分的数据，大数据组件处理海量数据的特点就是不患多，而患不均。

2. 怎么发现任务出现了数据倾斜现象

在yarn上可以查看task的执行情况，如果一个阶段中有些task很快执行完了，有些task迟迟无法结束或者运行时间减少，则大概率出现了数据倾斜的现象。

3. 描述1个数据倾斜的情景，针对这个情景给出解决方案

情景1：select count(distinct user_id) from t_user;

为什么：如果存在大量相同的user_id，而在count的时候会因为大量相同的user_id集中在同一个reducetask中，导致数据倾斜

解决方案：

1) 设置提高reduceTask的个数

2) select count(*) from(select sex from t_person group by sex) t1;

情景2：在group by分组的时候，某个key过多；

解决方案：将 key 打散

给 key 增加随机前缀

在进行 group by 之前，先给每个 user_id 增加一个随机前缀，使得原本相同的 user_id 被打散到不同的分组中。
按带前缀的 key 进行分组

对带有随机前缀的 user_id 进行分组和聚合。
去掉前缀后再分组

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浩哥码字贼快

关注关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive数据倾斜

joananjin的博客

04-19

770

一、数据倾斜产生原因1.操作join一个表很小，但是key集中；分发到某一个或者几个Reduce上的数据远高于平均值。大表与大表，但是字段的空值很多；这些空值都由一个reduce进行操作，速度非常的慢。group by数据维度非常的小，某值的数据非常多；处理某值的reduce非常耗时。count distinct某特殊值多；处理此特殊值的reduce非常的耗时。2.原因（1）key值分布不均匀。（...

Hive数据倾斜判断依据及解决办法

baidu_40441411的博客

09-27

763

Hive数据倾斜，Dr.Elephant，Group By倾斜，Join倾斜

参与评论您还未登录，请先登录后发表或查看评论

Hive中如何定位数据倾斜

qq_42160456的博客

01-03

1405

hive定位数据倾斜及通用的解决方案

hive怎么通过explain查看数据倾斜，主要看哪些信息？

weixin_45937224的博客

03-11

1060

在 Hive 中，可以通过 EXPLAIN 命令查看查询语句的执行计划。如果查询语句中存在数据倾斜的情况，可以通过查看执行计划中的某些信息来判断数据倾斜的情况

Hadoop和Hive中的数据倾斜问题及其解决方案

jakelihua

11-26

132

Hadoop和Hive中的数据倾斜问题及其解决方案。

Hive---数据倾斜的产生及解决方法

m0_67402026的博客

07-31

482

一、数据倾斜的定义数据倾斜是指在并行进行数据处理的时候，由于单个partition的数据显著多余其他部分，分布不均匀，导致大量数据集中分布到一台或者某几台计算节点上，使得该部分的处理速度远低于平均计算速度，成为整个数据集处理的瓶颈，从而影响整体计算性能。二、几种数据倾斜的解决方案1、空值引发的数据倾斜在数据采集时，判断导致数据倾斜的key是不是提前过滤掉了。在inner join，也就是使用内连接时，hive默认过滤掉了空值，但对于left join等等，会保留左边有的值。空KEY过滤的使用场景：1.非in

大数据hive数据倾斜，hive-sql优化

08-17

大数据Hive数据倾斜、Hive-SQL优化在大数据处理中，Hive是一个非常重要的工具，然而在实际应用中，...Hive性能调优、数据模型设计、数据倾斜判断和解决方法等知识点都是解决大数据Hive数据倾斜和性能优化问题的关键。

第十六章 Hive生产环境优化&数据倾斜解决方案

qq_27924553的博客

03-02

1905

架构师专题之Hive生产环境优化

如何判断数据倾斜及解决方法、TextFile格式、Parquet格式、Orc格式及其优缺点

Y521316的博客

05-23

638

如何判断数据倾斜及解决方法、TextFile格式、Parquet格式、Orc格式及其优缺点

Hive数据倾斜常见场景及解决方案（超全！！！）

热门推荐

weixin_51981189的博客

10-20

1万+

Hive数据倾斜是面试中常问的问题，这里我们需要很熟练地能举出常见的数据倾斜的例子并且给出解决方案。数据倾斜是由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点的现象。主要表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。

怎么排查是哪里出现了数据倾斜

longzorg_cn的博客

11-25

1410

有时候，某个 task 执行的节点可能有问题，导致任务跑的特别慢。多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当执行过程中任务卡在 99%，大概率是出现了数据倾斜，但是通常我们的 SQL 很大，需要判断出是哪段代码导致的倾斜，才能利于我们解决倾斜。今天我们不扯大篇理论，直接以例子来实践，排查是否出现了数据倾斜，具体是哪段代码导致的倾斜，怎么解决这段代码的倾斜。如果每个 reduce 执行时间差不多，都特别长，不一定是数据倾斜导致的，可能是 reduce 设置过少导致的。

获取YARN上执行时间最长的JOB列表，并查看是否存在数据倾斜

xw514124202的博客

06-29

3741

处理思路 1、通过 HistoryServerRestApi 获取YARN JOB的基本信息（包括JOB的 ID和名称，开始时间和结束时间） http://<history server http address:port>/ws/v1/history/mapreduce/jobs?startedTimeBegin=%s&startedTimeEnd=%s 2、对执行时间...

Hive 如何排查数据倾斜问题

雾岛与鲸的博客

09-07

5133

如果某个key下记录数远超其他key，在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下: 查询每个appid打开的次数，需要排除掉作弊的imei。 select appid, count(*) from ( select md5imei, appid from ( select t1.md5imei, t1.appid, t2.cheat_flags from imei_open_app t1 left join cheat_

什么是数据倾斜

qq_39889944的博客

12-05

388

简单介绍了数据倾斜并对数据倾斜场景进行案例分析

数据倾斜排查

weixin_43135696的博客

06-30

405

如果每个 reduce 执行时间差不多，都特别长，不一定是数据倾斜导致的，可能是 reduce 设置过少导致的；有时候，某个 task 执行的节点可能有问题，导致任务跑的特别慢。如果新的任务在很短时间内能完成，通常则是由于 task 执行节点问题导致的个别 task 慢。reduce 的时间比其他 reduce 时间长的多，大部分 task 在 1 分钟左右完成，只有 r_000095 这个 task 执行一个多小时还没完成。比较不同的 task counter 的输入记录数，看是否有很大的数据量的差距。

spark 通过打散热点key解决数据倾斜问题

bitcarmanlee的博客

12-22

4678

数据倾斜的判断方法和解决方案

linken01的博客

02-07

1326

简述大厂中数据倾斜的判断方法和一些解决方案。

spark 数据倾斜解决方案

mn_kw的博客

07-20

2722

1. 数据倾斜的原理在执行shuffle操作的时候，按照key，来进行values的数据的输出、拉取、和聚合的，同一个key的values，一定是分配到一个reduce task进行处理的。多个key对应的values,总共有90万，但是问题是，可能某个key对应了88万条数据，key-88万values，分配到了一个task上面去执行，另外俩个task，可能各分配到了1万数据，可能是...

如何定位Spark数据倾斜问题，解决方案

运维仙人

04-13

2309

在Spark任务运行过程中，数据倾斜的情况是比较常见的，通常解决的方法有：修改任务的并行度或是将key打散的方式进行优化，下面循序渐进地介绍几种常见的倾斜场景和解决方案。如何定位Spark数据倾斜问题和解决方案介绍到这里啦~

hive数据倾斜处理