sql相关

原创已于 2024-07-11 15:52:35 修改 · 816 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#sql #数据库

于 2024-06-11 00:15:40 首次发布

问题①：HIVE有不等值连接吗？
问题②：not in 与not exists
问题③：查询连续登录连天的用户，并行成一行记录
问题④：查询工资排第4到第8位有几种方法
问题⑤：SQL的优化

有，Hive中，不等值连接的实现依赖于LEFT JOIN或RIGHT JOIN等连接操作符，并结合WHERE子句来实现。但使用不等值连接时会全表扫描，可能会影响效率。
not in：列表排除，直接从给定的列表中排除那些特定的值。比如“班级里不在[小明、小红、小刚]名单中的同学”。（不在其中）
not exists:去判断是不是根本不存在某个特定的关联，排除关系。（不存在某种关系）
连续登陆问题：
思路分析：
对用户登录记录按照用户ID和登录日期进行排序。
使用ROW_NUMBER()函数为每个用户的登录记录分配一个序列号，序列号的分配依据是登录日期的先后顺序。
计算相邻登录记录之间的日期差异，如果这个差异为1，则表明这两个登录记录是连续的。
根据日期差异，筛选出连续登录的用户记录。
步骤
数据去重：由于同一用户可能在同一天内有多次登录记录，因此首先需要对登录记录进行去重处理，只保留每个用户每天的一条记录。
排序：使用ORDER BY语句对去重后的记录按照用户ID和登录日期进行排序。
分配序列号：使用ROW_NUMBER()函数为每个用户的登录记录分配序列号，序列号会随着日期依次递增。
计算日期差异：通过DATE_SUB()函数计算当前登录日期与前一登录日期的差异，如果这个差异为1，则认为这两个登录记录是连续的。减去间隔排序天数。
筛选连续登录记录：根据日期差异的结果，筛选出连续登录的用户记录。
代码补充：WITH t1 AS (
SELECT DISTINCT uid, date(login_time) ymd
FROM t_login),
t2 as (
select uid,ymd,row_number() over (partition by uid order by ymd) as ra,
date_sub(ymd,interval (row_number() over (partition by uid order by ymd)) day) sub_date
from t1)
select uid from t2
group by uid
having count(*)>=3
第一种：用窗口函数对工资进行排序，判断条件排序从4到8。SELECT *
FROM (
SELECT *, ROW_NUMBER() OVER (ORDER BY salary DESC) AS row_num
FROM employees
) subquery
WHERE row_num BETWEEN 4 AND 8;
第二种;使用 LIMIT 和 OFFSET,对工资排序，跳过前面3行，取后续的5行。
SELECT *
FROM employees
ORDER BY salary DESC
LIMIT 5 OFFSET 3;
sql的优化:加索引；语句优化，避免全表扫描，尽量用范围扫描，指定具体字段；
案例一：慢查询优化