[Hive]Hive排序优化

本文介绍了在大数据处理中,orderby、sortby及distributeby等排序和分布策略的区别与应用。orderby为全局排序,消耗时间较长;sortby实现局部排序,速度快但无法保证全局有序;distributeby则用于控制数据如何在reducer中分配。通过组合使用sortby+distributeby或clusterby,可以在保证一定排序需求的同时提高处理效率。

1、从order by 到 sort by
order by:全局排序,大数据集会消耗太过漫长的时间
sort by:只会在每个reducer 中对数据进行排序,也就是执行局部排序过程,只能保证每个reducer的输出数据都是有序的(但并非全局有序)
2、sort by+distribute by
distribute by控制map的输出在reducer中是如何划分的。假设我们希望具有相同股票交易码的数据在一起处理。那么我们可以使用distribute by来保证具有相同股票交易码的记录会分发到同一个reducer中进行处理,然后使用sort by来按照我们的期望对数据进行排序。
3、cluster by 
如果distribute by和sort by涉及到的列完全相同,且采用的是升序排序方式,则相当于cluster by。
注意:使用distribute by 与sort by语句或简化版的cluster by语句会剥夺sort by的并行性,然而可以实现输出文件是全局排序的。

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值