- 博客(3)
- 收藏
- 关注
原创 SQL:统计每5min在线人数思路
只需要关联开始时间的hour就可以,因为开始和结束时间都是同一个hour下,这样关联每一条记录会膨胀12条数据。判断游戏时长大于1h的为异常数据,已经过滤了游戏耗时大于1h的数据,所以目前数据的情况是。可以看到 开始时间和结束时间判断对应的时间点是否在线的规则是不一样的。得到相对应的时间点,再判断,这个点是否在开始时间和结束时间的区间内。情况1:游戏开始时间和结束时间是在同一天,同一个小时内,则。1,游戏开始时间和结束时间是在同一天,同一个小时内;2,游戏开始时间和结束时间是同一天,不同小时内;
2022-09-14 20:53:35
1589
原创 如何通过SparkUI 查看SparkSql作业
执行计划中的每个蓝色方块都有非常多的信息可以查看,如肉眼直接可以看到的Scan orc table_name ,number of output rows: 说明扫描了哪个表,这个表有多少行,我们把鼠标放在对应的信息上也会显示详细的信息,扫描的表的hdfs路径,分区,表存在的字段,等等,如下图。注:一般任务中有缓存,且是还在执行的过程中,这个页面才有对应的信息,任务执行时缓存结束了,这个页面的信息就会释放,就看不到什么内容了。job中stage的划分就是根据shuffle依赖进行的。
2022-09-13 14:22:49
5566
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人