Hive--hql语句易错易混点，常见问题思路_直接select的字段不是聚合字段。group by字段才能直接select,否则需要使用聚合函-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37296285/article/details/90721944

本文聚焦Hive数仓，介绍易错知识点，如group by后having count(1) > 2的含义，以及select多字段时group by的使用规则。还给出常见问题思路，包括取前若干名、时间戳操作、‘达到多少次+其他限制’和‘每门，所有都’问题的操作方法及注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

易错知识点
- having count(1) > 2 :
- select ...group by..
常见问题思路

易错知识点

having count(1) > 2 :

group by之后，过程表可以看做每一个不同分组字段值为一行数据，count(1)可以看做有一个值都是1的字段，分组完使用使用聚合函数count,数这个单元格中1的个数。

select …group by…

如果select多个字段，除了select的字段是聚合函数的字段，否则如果使用group by，则剩余所有字段都必须参与group by

select  movies.Title,count(Rating) as count_Rating from ratings join movies on ratings.MovieID=movies.MovieID group by ratings.MovieID,movies.Title order by count_Rating desc limit 10;

#注意：group by多个字段的场景，它的含义是group by的多个字段都相等的才算一组。
举例：
  group by A,B          此时A 1 B 1 和 A 1 B 2算两组，A 1 B 1和A 1 B 1才算一组

常见问题思路

取前若干名的操作

order by … limit n ：可以取前n名

时间戳操作；“达到多少次+其他限制”情况的操作

求黑名单，有以下数据：
userid url timestamp
1 www.baidu.com 2019-05-24 08:30:23:019
2 www.sina.com.cn 2019-05-24 08:31:23:026
1 www.taobao.com 2019-05-24 08:31:24:002
…
求出5分钟之内访问次数达到100次的用户

select distinct userid from visit(表名称)
where (unix_timestamp(timestamp)-unix_timestamp(lag(timestamp,99,timestamp) over(distriute by userid sort by timestamp asc)))<300000;

#分析：
首先：子句功能实现，如果想要查询次数达到100次，则必须按userid分，如果使用group by的话，时间戳就会聚合成一个，而本题还对时间有5分钟的限制，需要按照userid分完之后,还要使用聚合前的数据（即时间戳），所以可知要使用开窗函数
然后：over(distribute by userid sort by timestamp asc ) 这个还是很好想的，下面要思考的就是如何将限制条件表示出来，达到多少次并且还有其他限制的问题，要学会使用lag(),led()
最后：对于时间要注意，unix_timestamp(正常时间)函数的使用，此种方法转换成的时间单位是毫秒，要注意！！！！！
最后的最后：要理解窗口函数查询多一行的本质，所以可能userid会有重复的，所以要添加distinct来去重