spark选择去重

最新推荐文章于 2023-07-08 16:55:57 发布

转载最新推荐文章于 2023-07-08 16:55:57 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/lvtula/article/details/93851185?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163054375716780255298013%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=163054375716780255298013&biz_id=0&u

文章标签：

#spark

Spark 专栏收录该内容

6 篇文章

订阅专栏

在Spark中，当需要对特定列进行去重操作时，可以使用TopN的思路来实现。例如，针对appid和date两列去重，可以先选择这两列并去除空值，然后设置窗口函数按照appid分组并按某个排序标准（如出现次数）降序排列。通过row_number()函数获取每组内的第一行（即row_num=1），从而达到去重目的。这种方法避免了distinct对所有列的全局去重，提高了处理效率。

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。

    要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第一行就可以了。

具体实现代码如下：

//选出某几列，去掉空值
Dataset dataset = input.select(
Consts.Fields.APPID,
Consts.Fields.EXT $ADID ).na().drop(dropNulCol); dataset.persist(); //设置窗口计算，可以指定多个列为partitionBy,其实就是多个groupby 分组列 WindowSpec w=Window.partitionBy(Consts.Fields.APPID).orderBy(col("count").desc()); //只取row num=1，那就是top N,如果window里有orderby排序的话。 Dataset<Row> top = count.withColumn("rn",row_number().over(w)).where(col("rn").$ eq $e q$ eq(1)).drop(“rn”);