Hive的排序

博客介绍了HIVE中的排序方法。Order by可实现完全排序,但处理大数据集效率低,多数情况无需全局排序。此时可换用sort by,它为每个reduce排序并产生排序文件。特殊情况下,可用distribute by控制特定行到指定reducer以进行后续聚集操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HIVE中的排序

Order by 是只通过一个reduce进行的完全的排序结果,对于特别大的数据集时候效率太慢,在多数情况下不需要进行全局排序。

此时换成Hive的sort by进行排序,sort by为每一个reduce进行排序,为每一个reducer产生一个排序文件。

在某些特殊的情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做这件事。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值