hive查询-排序

彩笔程序猿zxxxx

于 2018-08-09 20:35:10 发布

阅读量582

点赞数

分类专栏： hive

本文链接：https://blog.youkuaiyun.com/kaede1209/article/details/81543653

版权

本文介绍了Hive中的排序操作，包括order by的全局有序，sort by的局部排序，以及distribute by和cluster by的使用场景。同时，深入探讨了窗口函数的应用，如聚合函数、排名、比例计算、分片以及窗口定位函数，并提供了相关函数的使用注意事项和示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

select * from test_table order by income;

select * from test_table sort by income;

Insert overwrite local directory ‘/home/hadoop/out’ select * from test_table destribute by city_id;

SELECT col1, col2 FROM t1 CLUSTER BY col1;

•order by 全局有序，一个reducer，输入规模较大时建议使用limit

•sort by 不是全局排序，多个reduce，每个reduce只保证自己产出的数据是排序的

再对产出的所有文件做一次归并排序就可以了，也可用limit大大加快查询速度

•distribute by 按照所选字段划分reduce，注意数据的均衡

•cluster by col1= distribute by col1 sort by col1 排序只能是倒序排序

分析窗口函数

•聚合函数：COUNT

最低0.47元/天解锁文章