初探Spark,DataFrame中使用Time Window实现Count window
背景:最近工作中碰到一个需求,需要使用一个spark job进行离线数据同步,将每天所有车的心跳HB数据中的指标A进行统计,得到响应一个统计结果,然后入库。
job的逻辑的核心算法,是这样:每一台车约有550条HB,以15条为宽度,以5条为间距,移动的去统计计算,即1-15条数据进行一次算法判断得到一个结果,6-20条进行一次算法判断得到一个结果,11-25条数据进行一次算法判断得到一个结果…直至第550条。
难点:看到这个算法描述,首先想到的是使用滑动窗口,来解决此问题。然后去对spark进行技术调研,发
原创
2020-05-24 20:50:04 ·
719 阅读 ·
0 评论