spark实现用窗口函数进行去重计数的功能

最新推荐文章于 2024-07-29 14:05:37 发布

Alex.liu

最新推荐文章于 2024-07-29 14:05:37 发布

阅读量2.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签：窗口函数去重计数

本文链接：https://blog.youkuaiyun.com/longwei92/article/details/93879581

Spark 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种使用SQL窗口函数结合collect_set进行数据去重并计数的方法，适用于处理需要去除重复元素的场景，如在DataFrame中应用。通过示例代码展示如何在Spark或Hive中实现这一功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

//collect_set去除重复元素；collect_list不去除重复元素
df.withColumn(
   "new_col_name",
   size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))
)
//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能