Hive的Sort by Order by Distribute by Cluster by

sort by是分区内排序,一个Reduce对一个Map的数据排序,效率高。

order by是全局排序,一个Reduce对所有Map内的数据排序,效率低。

distribute by 是对数据分区,根据字段哈希值取模来划分到不容的MR内。注意哈希碰撞
哈希碰撞:Hash碰撞是指两个不同的输入值,经过哈希函数的处理后,得到相同的输出值,这种情况被称之为哈希碰撞。
例如:两个不同的对象(object1和object2的值)经过Hash函数计算后的,得到的hash值相同,object2应放到object1的位置,但是存储桶中的位置已经被object1占用了,导致冲突
使用场景:根据学生班级分区,然后按照分数降序。
要先分区在排序,否则报错!

cluster by 依据某一字段分区后排序。
当ditribute by 和sort by 对同一字段操作时,就可以简化为cluster by 。要和group by 区分。
当分区数小于字段分类数时,可以局部有序,解决数据倾斜。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值