hive中的全排序

最新推荐文章于 2024-06-04 15:24:46 发布

转载最新推荐文章于 2024-06-04 15:24:46 发布 · 400 阅读

__Hive 专栏收录该内容

66 篇文章

订阅专栏

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见hadoop简单实现全排序

现在学了hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？

事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的个数都是1了，结果自然全排序！

这也违背了充分利用分布式计算进行海量数据排序的初衷，效率低下。

那么hive又提供了一个可供选择的方式：sort by

它会保证每个reducer的输出文件是有序的（其实是废话，每个reducer的输出当然是有序的！），要想实现全排序，还得加一个order by的过程，就是对sort by的reduce输出结果再进行一次排序。

所以：

要想用hive实现全排序：

要么用order by，但这样默认了reducer个数为1，效率低下。

要么用sort by+order by，sort by过程可以设置reducer个数（n），order by过程用n个reducer的输出文件进行一次全排序，得到最终的结果。

（个人理解，如有错误请不吝赐教，感谢！）

注：

（1）对于order by，sort by：

我们可以使用limit进行限制返回的行数，从而实现抓出数据的top N的情形。

（2）对于distribute by：

sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。hive的distribute by就派上用场了：

[sql]view plaincopyprint? 
   
 <span style="font-size:18px;">From table    
 select year, temperature    
 distribute by year    
 sort by year asc, temperature desc; </span>  

上面实现了局部排序，且规定了：根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中（文件下），可以看出，distribute by经常与sort by一起使用。

需要注意的是，hive要求distribute by 要写在sort by之前。

（3）对于cluster by：

简而言之：cluster by column=distribute by column+sort by column （注意，都是针对column列，且采用默认ASC）

即对于上面例子：

[sql]view plaincopyprint? 
   
 <span style="font-size:18px;">From table    
 select year, temperature    
 cluster by year;</span>  

就等于：

[sql]view plaincopyprint? 
   
 <span style="font-size:18px;">From table    
 select year, temperature    
 distribute by year    
 sort by year; </span>