Hive--hql语句易错易混点,常见问题思路

本文聚焦Hive数仓,介绍易错知识点,如group by后having count(1) > 2的含义,以及select多字段时group by的使用规则。还给出常见问题思路,包括取前若干名、时间戳操作、‘达到多少次+其他限制’和‘每门,所有都’问题的操作方法及注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

易错知识点

having count(1) > 2 :

group by之后,过程表可以看做每一个不同分组字段值为一行数据,count(1)可以看做有一个值都是1的字段,分组完使用使用聚合函数count,数这个单元格中1的个数。

select …group by…

如果select多个字段,除了select的字段是聚合函数的字段,否则如果使用group by,则剩余所有字段都必须参与group by

select  movies.Title,count(Rating) as count_Rating from ratings join movies on ratings.MovieID=movies.MovieID group by ratings.MovieID,movies.Title order by count_Rating desc limit 10; 
#注意:group by多个字段的场景,它的含义是group by的多个字段都相等的才算一组。
举例:
  group by A,B          此时A 1 B 1 和 A 1 B 2算两组,A 1 B 1和A 1 B 1才算一组

常见问题思路

取前若干名的操作

order by … limit n :可以取前n名

时间戳操作;“达到多少次+其他限制”情况的操作

求黑名单,有以下数据:
userid url timestamp
1 www.baidu.com 2019-05-24 08:30:23:019
2 www.sina.com.cn 2019-05-24 08:31:23:026
1 www.taobao.com 2019-05-24 08:31:24:002

求出5分钟之内访问次数达到100次的用户

select distinct userid from visit(表名称)
where (unix_timestamp(timestamp)-unix_timestamp(lag(timestamp,99,timestamp) over(distriute by userid sort by timestamp asc)))<300000;

#分析:
首先:子句功能实现,如果想要查询次数达到100次,则必须按userid分,如果使用group by的话,时间戳就会聚合成一个,而本题还对时间有5分钟的限制,需要按照userid分完之后,还要使用聚合前的数据(即时间戳),所以可知要使用开窗函数
然后:over(distribute by userid sort by timestamp asc ) 这个还是很好想的,下面要思考的就是如何将限制条件表示出来,达到多少次并且还有其他限制的问题,要学会使用lag(),led()
最后:对于时间要注意,unix_timestamp(正常时间)函数的使用,此种方法转换成的时间单位是毫秒,要注意!!!!!
最后的最后:要理解窗口函数查询多一行的本质,所以可能userid会有重复的,所以要添加distinct来去重

“每门,所有都”问题操作思路

该类问题,要选择出最大或者最小的与条件相比较

用一条SQL语句查询出student表中每门课都大于80分的学生姓名
Select name from student group by name having min(score) > 80;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值