hive分组排序groupby,order by,Sort By,DISTRIBUTE BY, CLUSTER BY

最新推荐文章于 2023-12-01 21:29:49 发布

weixin_45086773

最新推荐文章于 2023-12-01 21:29:49 发布

阅读量1.6k

点赞数

分类专栏： hadoop 文章标签： hive

本文链接：https://blog.youkuaiyun.com/weixin_45086773/article/details/103774591

版权

hadoop 专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了SQL中的GROUP BY和ORDER BY语句的使用方法，包括如何计算每个学生的平均分数和最高成绩，以及如何在MapReduce环境中使用DISTRIBUTE BY和CLUSTER BY进行数据分区和排序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

                    
                        
                    
                    groupby
 GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作
 案例实操：
 计算每个学生的平均分数
 select s_id ,avg(s_score) from score group by s_id;
 计算每个学生最高成绩
 select s_id ,max(s_score) from score group by s_id;
order by
 全局排序，一个reduce
Sort By：
 每个MapReduce内部进行排序，对全局结果集来说不是排序。
DISTRIBUTE BY:分区排序
 Distribute By：类似MR中partition，进行分区，结合sort by使用。
 注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。
 对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。
CLUSTER BY
 当distribute by和sort by字段相同时，可以使用cluster by方式。
 cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒序排序，不能指定排序规则为ASC或者DESC。