一、概念题
1.1关键字的使用顺序
(1)查询中用到的关键词主要包含六个,并且他们的顺序依次为
select --> from --> where --> group by --> having --> order by
其中select和from是必须的,其他关键词是可选的。
(2)from: 需要从哪个数据表检索数据 。
where: 过滤表中数据的条件。
group by: 如何将上面过滤出的数据分组。
having: 对上面已经分组的数据进行过滤的条件。
select: 查看结果集中的哪个列,或列的计算结果。
order by: 按照什么样的顺序来查看返回的数据。
(3)使用注意:
①、from后面的表关联,是自右向左解析的,而where条件的解析顺序是自下而上的。 也就是说,在写SQL的时候,尽量把数据量小的表放在最右边来进行关联(用小表去匹配大表);而把能筛选出小量数据的条件放在where语句的最左边 (用小表去匹配大表)。
②、使用count(列名)当某列出现null值的时候,count(*)仍然会计算,但是count(列名)不会。
③、group by:select 列a,聚合函数(聚合函数规范) from 表明 where 过滤条件 group by 列a
group by 子句也和where条件语句结合在一起使用。当结合在一起时,where在前,group by在后。即先对select xx from xx的记录集合用where进行筛选,然后再使用group by对筛选后的结果进行分组。
④、having:having条件表达式,但是需要注意having和where的用法区别:
i. having只能用在group by之后,对分组后的结果进行筛选(即使用having的前提条件是分组)。
ii. where肯定在group by之前,即也在having之前。
iii. where后的条件表达式里不允许使用聚合函数,而having可以。
⑤、当一个查询语句同时出现了where, group by, having, order by的时候,执行顺序和编写顺序是:
i. 执行where xx对全表数据做筛选,返回第1个结果集。
ii. 针对第1个结果集使用group by分组,返回第2个结果集。
iii. 针对第2个结集执行having xx进行筛选,返回第3个结果集。
iv. 针对第3个结果集中的每1组数据执行select xx,有几组就执行几次,返回第4个结果集。
v. 针对第4个结果集排序。
1.2 join和union的区别
union和join是需要联合多张表时常见的关联词,
join:
两张表做交连后里面条件相同的部分记录产生一个记录集,
union:
union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集 。
二者区别:
join和union的主要区别就一条,join是将拼接内容变成一行(左右拼接),根据共同字段将数据拼接成一行一行数据;union是将表内容拼接成一列(上下拼接),也是根据字段共同属性进行将表与表之间数据进行上下拼接。
更详细内容参考:join和union的区别_heheha_zj的博客-优快云博客_union和join的区别
二、查询题
2.1 近三个月未完成试卷数为0的用户完成情况(来源:牛客)
找到每个人近三个月有试卷作答记录的月份中没有试卷是未完成状态的用户的试卷作答完成数,按试卷完成数和用户ID降序排名。
问题分解:
1.对每个用户的试卷作答记录的时间按照月份进行排序,取最近的前3个月。
(对相同的数,给相同的排名,且不跳过,例如1 1 2 3 3 3 4 这样的排名方式,故而选择DENSE_RANK() OVER()函数进行排序)
DENSE_RANK() OVER() (PARITITION NY uid ORDER BY start_time DESC) AS ranking (当ranking<=3时满足题设需求)
2.剔除在3个月中有未完成状态试卷的用户,即作答数=完成数COUNT(start_time)=COUNT(submit_time)
3.试卷作答完成数
COUNT(submit_time)AS exam_complete_cnt
4.按试卷完成数和用户ID降序排名
ORDER BY exam_complete_cnt DESC,uid DESC
2.2游戏数据挖掘-最大同时在线人数
https://zhuanlan.zhihu.com/p/434962806
select
date(login_time) as login_date,
hour(login_time) as login_hour,
max(online_user_cnt) as online_user_cnt_max
from
(
select
user_id,
login_time,
sum(index1) over(order by login_time asc ) as online_user_cnt
from
(
select
user_id,
login_time,
1 as index1
from
login_data
union all
select
user_id,
exit_time,
-1 as index1
from
login_data
)a
)b
group by
date(login_time) ,
hour(login_time)
文章介绍了SQL查询的基本顺序,包括SELECT,FROM,WHERE,GROUPBY,HAVING,ORDERBY等关键字的使用。同时,对比了JOIN和UNION的区别,并提供了两个实际查询问题:一个是查找近三个月未完成试卷数为0的用户及其完成情况,另一个是通过数据挖掘找出游戏的最大同时在线人数。这两个案例展示了SQL在数据分析中的应用。
8737

被折叠的 条评论
为什么被折叠?



