spark-sql按时间间隔分组统计

最新推荐文章于 2025-04-28 22:28:35 发布

IDONTCARE8

最新推荐文章于 2025-04-28 22:28:35 发布

阅读量2.2k

点赞数

分类专栏：大数据学习文章标签： java spark sql

本文链接：https://blog.youkuaiyun.com/m0_37556124/article/details/121441811

版权

大数据学习专栏收录该内容

13 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

该博客介绍了如何在Spark SQL中利用时间窗口进行数据分组统计，涵盖了从准备测试数据集到执行分组计算的完整过程，特别是针对当前窗口-15秒到15秒的数据进行操作，并展示了如何获取当前窗口数据与历史数据之和。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

准备测试数据集(spark2.3.0,scala2.11)

val df = Seq(
      ("001", 1, 10, "2021-11-20 11:50:41"),
      ("002", 1, 40, "2021-11-20 11:50:43"),
      ("004", 1, 20, "2021-11-20 11:50:52"),
      ("005", 1, 20, "2021-11-20 11:50:52"),
      ("003", 1, 80, "2021-11-20 11:50:45"),
      ("006", 2, 80, "2021-11-20 11:51:45")
).toDF("key", "type", "amount", "end_time")

获取当前窗口-15秒到15秒的内容

df..withColumn("ts", $"end_time".cast(DataTypes.TimestampType).cast(DataTypes.LongType))
      .withColumn("window_sum",
        sum("amount").over(Windo

了解本专栏