回访数据组成部分:页面、用户、次数、次日是否访问、七日是否访问、日期
page_id | 页面id |
user_id | 用户id |
visit_cnt | 访问次数 |
has_return_visit_2d | 次日有回访 |
has_return_visit_7d | 7日有回访 |
pt_date | 日期 |
指标定义1:当日用户a 访问页面001,次日该用户又访问001页面,那么有次日回访行为;
当日访问过001页面,次日访问过001页面,同时7日访问过001页面,那么7日有回访行为;
次日回访、7日回访、N日回访(N>7),数据成递减趋势。
周期:最高回访7日为例,每次需要更新7天的数据
思路:拿当日 group by user_id ,page_id数据,关联次日group by user_id ,page_id数据,拿次日处理后数据,接着关联7日 group by user_id ,page_id 数据。
代码:
-- 开启动态分区
set hive.exec.dynamic.partition=TRUE;
set hive.exec.d