1、从order by 到 sort by
order by:全局排序,大数据集会消耗太过漫长的时间
sort by:只会在每个reducer 中对数据进行排序,也就是执行局部排序过程,只能保证每个reducer的输出数据都是有序的(但并非全局有序)
2、sort by+distribute by
distribute by控制map的输出在reducer中是如何划分的。假设我们希望具有相同股票交易码的数据在一起处理。那么我们可以使用distribute by来保证具有相同股票交易码的记录会分发到同一个reducer中进行处理,然后使用sort by来按照我们的期望对数据进行排序。
3、cluster by
如果distribute by和sort by涉及到的列完全相同,且采用的是升序排序方式,则相当于cluster by。
注意:使用distribute by 与sort by语句或简化版的cluster by语句会剥夺sort by的并行性,然而可以实现输出文件是全局排序的。
[Hive]Hive排序优化
最新推荐文章于 2021-09-16 23:52:49 发布
本文介绍了在大数据处理中,orderby、sortby及distributeby等排序和分布策略的区别与应用。orderby为全局排序,消耗时间较长;sortby实现局部排序,速度快但无法保证全局有序;distributeby则用于控制数据如何在reducer中分配。通过组合使用sortby+distributeby或clusterby,可以在保证一定排序需求的同时提高处理效率。
9432





