pyspark中如何使用sql windows函数进行时间窗口的计算

最新推荐文章于 2024-11-20 15:28:00 发布

原创

最新推荐文章于 2024-11-20 15:28:00 发布 · 4.3k 阅读

CC 4.0 BY-SA版权

文章标签：

在实际业务中，在某一行的计算需要利用到改行前后的一些信息，例如，当前时间前1天内的汇总，或当前时间前1h的最大值和当前值的差值等等

在spark 1.4之后，提供了sql.windows函数，其形如：

from pyspark.sql import Window
>>> window = Window..partitionBy("country").orderBy("date").rowsBetween(Window.unboundedPreceding, Window.currentRow)

在这里需要明确几个窗口计算的概念：

partitionBy：分组，所有的通过rowsBetween和rangeBetween切割出来的帧都是在分组的基础上的；
orderBy：排序，这个比较好理解，就是按照那个字段排序
rowsBetween/rangeBetween ：这个需要明确，rowBetween是当前行的前或者后几行，rangeBetween是针对orderby的值计算出来的范围再和orderby比较来得到时间帧，下面这个图来辅助理解：
这是rowBetween
这是rangeBetween：

这时有个问题，如果我们需要排序的字段是timestamp类型，rangeBetween中是不能写datetime.timedleta的，所有需要将其转换一下，方式如下：

from pyspark import HiveContext
from pyspark.sql.types import TimestampType
from pyspark.sql import functions as F
from pyspark

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注

专栏目录

LifeIsGood

05-18

1715

05-12

546

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

weixin_44524610 2019.12.04
想问下，我那个orderby 如果想降序排列该怎么做
- wang_306回复weixin_44524610 2020.04.13
  [reply]weixin_44524610[/reply]查下orderby的用法，加个ascending的参数就可以了