一、数据
Table: Activity
+--------------+---------+ | Column Name | Type | +--------------+---------+ | player_id | int | | device_id | int | | event_date | date | | games_played | int | +--------------+---------+ (player_id,event_date)是此表的主键(具有唯一值的列的组合)。 这张表显示了某些游戏的玩家的活动情况。 每一行是一个玩家的记录,他在某一天使用某个设备注销之前登录并玩了很多游戏(可能是 0)。
编写解决方案,报告在首次登录的第二天再次登录的玩家的 比率,四舍五入到小数点后两位。换句话说,你需要计算从首次登录日期开始至少连续两天登录的玩家的数量,然后除以玩家总数。
结果格式如下所示:
示例 1:
输入: Activity table: +-----------+-----------+------------+--------------+ | player_id | device_id | event_date | games_played | +-----------+-----------+------------+--------------+ | 1 | 2 | 2016-03-01 | 5 | | 1 | 2 | 2016-03-02 | 6 | | 2 | 3 | 2017-06-25 | 1 | | 3 | 1 | 2016-03-02 | 0 | | 3 | 4 | 2018-07-03 | 5 | +-----------+-----------+------------+--------------+ 输出: +-----------+ | fraction | +-----------+ | 0.33 | +-----------+ 解释: 只有 ID 为 1 的玩家在第一天登录后才重新登录,所以答案是 1/3 = 0.33
二、分析
1、首先使用子查询找到每个玩家的最早登录时间,实现语法为对`player_id`进行分组,求每个玩家的最小登录时间。
2、然后要找出从首次登录日期开始至少连续两天登录的玩家的数量,其实就是在主查询中筛选每个玩家的登录时间与这个玩家的最早登录时间作比较,即以`玩家id`和`event_date` -1 为条件,与这个玩家的最早登录时间进行比较,又因为子查询中的数据为多个,所以在主查询的where条件中使用`in`关键字。
3、在主查询select语句中求出符合条件的数量与所有不同玩家id作比值即可得出答案。
三、代码
SELECT ROUND(COUNT(*) / (SELECT COUNT(DISTINCT player_id) FROM Activity), 2) fraction
FROM Activity
WHERE (player_id, date_sub(event_date, interval 1 DAY)) IN ( --用date_sub语句计算日期减一的数据
SELECT player_id, MIN(event_date) --子查询计算出每个玩家最早登录时间
FROM Activity
GROUP BY player_id);
四、分析
1、代码使用了子查询解决问题,需要清楚子查询的相关用法。
2、如果在WHRER条件中以多个字段为整体进行筛选,需要用括号进行包裹。
3、date_sub是计算已知时间之前的时间数据,具体的语法为:
date_sub(date, interval num day[month/year/....]),用day表示num天前,用year表示num年前。