oracle 通过分析函数实现求连续天数登陆的用户

本文详细解析了一段用户登录日志数据,并针对其中存在的重复登录记录进行了去重处理。通过SQL和Hive操作,实现了对特定时间段内连续登陆次数大于等于7次的用户ID及其连续登陆日期的统计。同时,介绍了去重过程中的关键算法步骤及具体实现,为后续数据分析和优化提供了参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先给出一些样例数据:

用户ID登陆时间(年)登陆时间(月)登陆时间(日)
1201471
1201472
1201473
1201473
1201474
1201475
1201475
1201477
1201478
1201479
12014710
12014711
12014712
12014713
12014714
12014714
12014714
12014715
12014719
12014721
12014722
12014723
12014729
12014730
12014731
这是用户ID:1的7月份的登陆日志情况,简单说明一下,3号有两条重复的数据,表明3号用户登陆了2次,14号用户登陆了3次,即一天用户可能登陆N次,产生重复的数据。所以必须先去重。

具体算法说明:

1 首先去重得到数据集 T

2 在去重的数据集上通过分析函数over按user_id对日期login_day进行组内排序获得序号row_number(),并用日期减去当前组内排序号得到一个差值rn

3 按user_id和差值rn进行GROUP BY,取COUNT>=7的记录去重得最终结果


具体SQL如下:

select distinct user_id,min(login_day),max(login_day)

  from (select t.*,
               
               trunc(t.login_day - row_number() over(partition by t.user_id order by t.login_day)) rn
        
          from (select distinct * from login_history) t where t.login_year=2014 and t.login_month=7)

 group by user_id, rn having count(1)>=7
这里统计2014年7月份连续登陆>=7天的用户ID,还有连续登陆的起止日期。


同样在hive中好像也有row_number() over分析函数,后面再研究一下hive的写法。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值