Hive中order by sort by distribute by cluster by用法

本文详细解析了Hive SQL中的四种排序方式:orderby、sortby、distributeby和clusterby的功能与使用场景,包括它们之间的区别及如何影响数据处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、order by

     hive中的order by和传统sql中的order by 一样,会对数据做全局排序,加上排序,会新启动一个jod进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,

不管文件多少,都启用一个reduce进行处理。

注意:

(1):order by后面可以有多列进行排序,默认按字典排序

(2):order by为全局排序

(3):order by需要reduce操作,且只有一个reduce,无法配置(因为多个reduce无法完成全局排序)。

order by操作会受到如下属性的制约

1、set hive.mapred.mode=nonstrict;

2、set hive.mapred.mode=strict;

注:如果在strict模式下使用order by语句,那么必须要在语句上加上limit关键字,因为执行order by的时候只能启动单个reduce,如果排序

的结果集过大,那么执行时间会非常漫长

如:原始数据为

id money name  

2 15 d

2 13 b

4 13 g

1 14 c

1 12 a

3 11 h

3 14 f

select id,sum(money) from t group by id 这条语句只用一个job就ok,

select id,sum(money) from t group by id order by id 如果加上order by 就会多一个job进行排序操作

2、sort by

    sort by是局部排序,会在每个reduce端做排序,每个reduce端是排序的,也就是每个reduce出来的数据是有序的,但是全部不一定有序,除非一个reduce,一般情况下可以先进行局部排序完成后,再进行全局排序,会提高不少效率。

    sort by不是全局排序,其在数据进入reducer前完成排序,因此如果用sort  by进行排序,并且设置mapred.reduce.tasks>1,则sort by会保证每个reducer的输出有序,并不是全局有序。sort by 不受 hive.mapred.mode属性的影响,sort by的数据只能保证在同一个reduce中的数据可以指定字段排序。使用sort by可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定),对输出的数据再执行归并排序,即可得到全部结果。

select id,sum(money) from t group by id sort by id;  这条语句也不会增加job,它在reduce端直接进行排序。

3、distribute by 

    distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,对应reduce的个数进行分发,默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下,你需要控制某个特定行应该在哪个reducer,这通常是为了后续的聚集操作。distribute by 刚好可以做这件事。因此,distribute by经常和sort by配合使用。

    将数据打乱,避免数据倾斜的一个方式

    distribute by pmod(cast(rand()*1000 as int),50);

注:Distribute by和sort by的使用场景

1、Map输出的文件大小不均。

2、Reduce输出文件大小不均。

3、小文件过多。

4、文件超大。

4、cluster by 

cluster by 是distribute by和sort by功能的结合,cluster by只能指定倒序排列。

转载于:https://www.cnblogs.com/css038981/p/10025531.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值