SQL_连续登陆问题

方案1:使用ROW_NUMBER函数

  • 1、先对数据user_id分组,根据用户的活动日期排序
  • 2、用登录日期与rn求date_sub,得到的差值日期如果是相等的,则说明这两天肯定是连续的
    • 举例说,2023年1月1号、1月2号、1月3号;排名分别是1,2,3;现在用日期 - 排名 是不是都等于2022年12月31号
  • 3、根据user_id和日期差sub_date分组,登录次数即为分组后的count(1)

1、针对对数据user_id分组,根据用户的活动日期排序

select
	user_id,
	activity_date,
	ROW_NUMBER() over(partition by user_id order by activity_date) as rn
from user_activity

在这里插入图片描述

2、用登录日期与rn求date_sub,得到的差值日期如果是相等的,则说明这两天肯定是连续的

SELECT
	user_id,
	activity_date,
	DATE_SUB(activity_date,INTERVAL rn DAY) as sub_date
from(
	select
		user_id,
		activity_date,
		ROW_NUMBER() over(partition by user_id order by activity_date) as rn
	from user_activity
)t1

在这里插入图片描述

3、根据user_id和日期差sub_date分组,登录次数即为分组后的count(1)

SELECT
	user_id,
	min(activity_date) as min_date,
	max(activity_date)  as max_date,
	count(1) as  login_times
from(
	SELECT
		user_id,
		activity_date,
		DATE_SUB(activity_date,INTERVAL rn DAY) as sub_date
	from(
		select
			user_id,
			activity_date,
			ROW_NUMBER() over(partition by user_id order by activity_date) as rn
		from user_activity
	)t1
)t2
group by user_id,sub_date
having login_times>=3;

在这里插入图片描述
从结果可以看出用户5,6,7,8存在连续登录3天及其以上的用户

方案2:使用lag和lead函数

  • 1、针对每个user_id,先使用lead函数将当前日期后后一天日期求出来
  • 2、针对每个用户,进行后一天的日期与当期日期相差值=1则属于连续登录。
    举例说,2023年1月1号、1月2号、1月3号;现在用日期2号 - 前后与它相差值2-1=1;3-2=1.是不是值都否为1呢。
  • 3、针对用户分组,datediff函数求出最大活动时间和最小活动时间的天数,求出>=3天的用户
WITH LoginDates AS (
    SELECT 
        user_id, 
        activity_date,
        LEAD(activity_date) OVER (PARTITION BY user_id ORDER BY activity_date) AS next_login_date
    FROM 
        user_activity
)
SELECT 
    user_id
FROM 
    LoginDates
WHERE 
    DATEDIFF(activity_date, next_login_date) = 1
GROUP BY 
    user_id
HAVING 
    COUNT(*) >= 3;
### HiveSQL 连续登录问题解决方案 在处理连续登录问题时,通常需要统计用户的连续登录天数并识别出满足特定条件的数据记录。以下是基于提供的引用内容以及常见实践的一种高效解决方案。 #### 数据准备 假设已有一个名为 `test_login` 的表,其结构如下: ```sql create table if not exists test_login( user_id string, login_date string ) row format delimited fields terminated by '\t'; ``` 加载数据到该表中以便后续查询操作。 --- #### 查询逻辑设计 为了找出连续登录超过指定天数的用户及其对应的起始时间和结束时间,可以采用窗口函数配合日期差值的方法来解决问题。具体实现过程如下所示: 1. **计算每条记录相对于同用户其他记录的位置偏移量** 使用 `ROW_NUMBER()` 函数按用户分组并对登录日期升序排列生成序列号。 2. **通过日期减去位置偏移量构建辅助列** 利用 `DATE_SUB()` 将实际登录日期减去对应行号得到一个新的虚拟字段 (`diff_date`) ,对于同一段连续时间段内的所有记录来说此值应保持一致。 3. **聚合分析获取最终结果集** 基于前一步产生的新维度再次进行分组合计,筛选符合条件的结果展示给业务方查看。 下面是完整的 SQL 实现语句: ```sql WITH temp AS ( SELECT user_id, login_date, DATE_SUB(login_date, ROW_NUMBER() OVER(PARTITION BY user_id ORDER BY login_date ASC)) AS diff_date FROM test_login ) SELECT user_id, COUNT(*) AS login_times, MIN(login_date) AS start_date, MAX(login_date) AS end_date FROM temp GROUP BY user_id, diff_date HAVING COUNT(*) >= 3; ``` 以上脚本实现了对原始日志数据的有效解析,并能够准确返回那些至少存在三次及以上连续访问行为的目标群体列表[^1][^2]. 如果还需要考虑更复杂的场景比如允许一定范围内的跳跃式连接,则需进一步调整算法细节,在这里就不展开赘述了[^4]。 --- ### 示例输出效果预览 假设有如下输入样本数据: | user_id | login_date | |---------|------------| | 01 | 2021-02-28 | | 01 | 2021-03-01 | | 01 | 2021-03-02 | | 01 | 2021-03-04 | | 01 | 2021-03-05 | | 01 | 2021-03-06 | 执行上述代码片段后可得预期成果如下表格形式呈现: | user_id | login_times | start_date | end_date | |---------|-------------|------------|------------| | 01 | 3 | 2021-02-28 | 2021-03-02 | | 01 | 3 | 2021-03-04 | 2021-03-06 | 这表明用户 '01' 存在于两个独立周期里均达成过三天以上的不间断签到成就. ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值