hive排序

最新推荐文章于 2025-06-04 15:37:01 发布

LPL.

最新推荐文章于 2025-06-04 15:37:01 发布

阅读量125

点赞数

分类专栏： hive 文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_36190755/article/details/117569423

版权

hive 专栏收录该内容

18 篇文章

订阅专栏

order by：全局排序，因此只有一个reducer（多个reducer无法保证全局有序）
如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

sort by：不是全局排序，分区内有序，其在数据进入reducer前完成排序
在每个reducer端做排序，也就是说保证了局部有序（每个reducer出来的数据是有序的，但是不能保证所有的数据是有序的，除非只有一个reducer），好处是：执行了局部排序之后可以为接下去的全局排序提高不少的效率（其实就是做一次归并排序就可以做到全局排序了）

distrbute by：控制map的输出在reducer是如何划分的，结合sort by使用指定排序字段

cluster by：当distribute by和sort by字段相同时，可以使用cluster by方式。cluster by 还兼具sort by的功能，但只能是升序排序，不可指定降序。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。