最近七天内连续三天活跃用户数

zjc4j

已于 2025-04-09 10:15:44 修改

阅读量3.8k

点赞数 12

分类专栏： # hive # SQL练习文章标签： hive 大数据

于 2021-08-10 21:56:30 首次发布

本文链接：https://blog.youkuaiyun.com/qq_29494693/article/details/119579329

版权

SQL练习同时被 2 个专栏收录

6 篇文章

订阅专栏

hive

3 篇文章

订阅专栏

这篇博客详细介绍了如何利用Hive SQL查询最近七天内连续三天活跃的用户。首先，创建数据表并加载HDFS文件，接着通过rank()函数获取用户每日活跃排名。然后，计算日期差值，筛选出连续登录的用户。通过分组和计数，找出满足条件的用户，去除重复的用户ID。最后，展示2021-08-10这天满足条件的活跃用户数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近七天内连续三天活跃用户数

建表：

create table uv_detail_daycount(
mid int
)PARTITIONED BY(dt string);

通过load将hdfs文件加载到hive中。
数据文件名如下：
在这里插入图片描述
里面的数据只有用户mid。如下所示：

每个日期对应的用户mid，即为该天活跃。
在这里插入图片描述
通过上图可以发现，最近七天内连续三天活跃用户数应该是001和002号用户，最终2021-08-10这天的最近七天内连续三天活跃用户数为2.

实现

第一步，查询最近七天的数据，并按照日期从小到大进行排序。

select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10'

在这里插入图片描述
第二步，求日期和排名的差值.

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10')
	
select 
	mid,
	date_sub(dt, mid_dt_rank) date_dif
from
	t1;

在这里插入图片描述
第三步，对用户和差值进行分组，然后通过having选择差值相同个数大于等于3的数据取出。

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10'),
	t2 as (select 
	mid,
	date_sub(dt, mid_dt_rank) date_diff
	from t1)

SELECT mid 
from 
	t2
	group by mid, date_diff
	HAVING count(*) >= 3;

在这里插入图片描述
第四步，根据用户id去重(为什么会出现重复的mid？最近七天可能用户前3天用户连续登录满足所求指标的要求，后三天也是如此，所以会出现mid重复。这个mid可以理解为该用户满足指标的次数吧，但是指标求的是活跃用户数，所以要去重）

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >=date_add('2021-08-10',-6) and dt<='2021-08-10'),
	t2 as (select 
	mid,
	date_sub(dt, mid_dt_rank) date_diff
	from t1),
	t3 as (SELECT mid 
	from 
	t2
	group by mid, date_diff
	HAVING count(*) >= 3)
	
select mid	
from
	t3
	group by mid;

在这里插入图片描述
第五步，整理显示：

with t1 as (select 
	mid,
	dt,
	rank() over(partition by mid order by dt) mid_dt_rank
	from uv_detail_daycount
	where dt >= date_add('2021-08-10',-6) and dt <= '2021-08-10'),
	t2 as (select 
	mid,
	date_sub(dt, mid_dt_rank) date_diff
	from t1),
	t3 as (SELECT mid 
	from 
	t2
	group by mid, date_diff
	HAVING count(*) >= 3),
	t4 as(select mid	
from
	t3
	group by mid) 

select 
	'2021-08-10',
	concat(date_add('2021-08-10',-6),'至','2021-08-10'),
	count(*)
from 
	t4;

在这里插入图片描述