在实际业务中,在某一行的计算需要利用到改行前后的一些信息,例如,当前时间前1天内的汇总,或当前时间前1h的最大值和当前值的差值等等
在spark 1.4之后,提供了sql.windows函数,其形如:
from pyspark.sql import Window
>>> window = Window..partitionBy("country").orderBy("date").rowsBetween(Window.unboundedPreceding, Window.currentRow)
在这里需要明确几个窗口计算的概念:
- partitionBy:分组,所有的通过rowsBetween和rangeBetween切割出来的帧都是在分组的基础上的;
- orderBy:排序,这个比较好理解,就是按照那个字段排序
- rowsBetween/rangeBetween :这个需要明确,rowBetween是当前行的前或者后几行,rangeBetween是针对orderby的值计算出来的范围再和orderby比较来得到时间帧,下面这个图来辅助理解:
这是rowBetween
这是rangeBetween:
这时有个问题,如果我们需要排序的字段是timestamp类型,rangeBetween中是不能写datetime.timedleta的,所有需要将其转换一下,方式如下:
from pyspark import HiveContext
from pyspark.sql.types import TimestampType
from pyspark.sql import functions as F
from pyspark