Group-by
用处
- group by经常和聚合函数一起使用,按照一个活多个列对结果进行分组,然后对每个组进行聚合操作。
Group by语法
groupByClause: GROUP BY groupByExpression (, groupByExpression)*
groupByExpression: expression
groupByQuery: SELECT expression (, expression)* FROM src groupByClause?
示例
- 根据性别,计算去重用户数
INSERT OVERWRITE TABLE pv_gender_sum
SELECT pv_users.gender, count (DISTINCT pv_users.userid)
FROM pv_users
GROUP BY pv_users.gender;
注意
- 使用
group by时,select语句只能包含group by的列和聚合函数
# 合法
SELECT
a,

本文介绍了Hive中的Group by功能,包括其用途、基本语法和示例,强调了使用时的注意事项。还探讨了高级特性——Multi-Group-By Inserts,允许将聚合结果输出到多个表或文件。此外,文章详细讲解了Group by的优化策略,如Map端部分聚合、处理数据倾斜和调整ReduceTask数量,以提高查询效率。
最低0.47元/天 解锁文章
2218

被折叠的 条评论
为什么被折叠?



