hive中distribute by 、sort by 、cluster by 、order by的区别

本文介绍了Hive中几个排序关键字的用法和特点。order by适合小数据集排序,设置hive.mapred.mode参数会影响其使用;distribute by用hash算法控制map输出结果分发;sort by为每个reducer产生排序文件,常与distribute by结合;cluster by相当于二者结合,默认升序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

order by
只有一个reduce负责对所有的数据进行排序,若大数据量,则需要较长的时间。建议在小的数据集中使用order by 进行排序。
如果设置hive.mapred.mode参数控制Hive执行方式为strict,则order by 则需要指定limit(若有分区还有指定哪个分区) ;若为nostrict,则与关系型数据库差不多。

distribute by
hive中(distribute by + “表中字段”)关键字控制map输出结果的分发,采用hash算法,在map端将查询的结果中hash值相同的结果分发到对应的reduce节点去处理。

sort by
sort by为每一个reducer产生一个排序文件,和distribute by一般情况下会结合使用。可以通过mapred.reduce.task 指定reduce个数,查询后的数据被分发到相关的reduce中。sort by不能保证全局数据有序。

cluster by
cluster by 相当于 distribute by 和sort by 的结合,默认只能是升序,以下两种写法查询结果相同

//cluster by
hive>select * from store cluster by merid;
//distribute by,sort by
hive>select * from store distribute by merid sort by merid asc;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值