spark scala dataframe 窗户函数Window的应用实现row_number() over(partition by , order by )

安静的数据流

于 2019-04-02 14:47:43 发布

阅读量3.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： scala spark

本文链接：https://blog.youkuaiyun.com/u010865811/article/details/88971377

scala 同时被 2 个专栏收录

4 篇文章

订阅专栏

spark

1 篇文章

订阅专栏

本文介绍如何使用Apache Spark SQL中的窗口函数row_number()进行数据排序和筛选操作。通过具体示例展示了如何根据预测值partition并按计数降序排列，最终选取每个分区的前三条记录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需要引入的包：

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

 //scala实现row_number() over(partition by  , order by  )
 val w = Window.partitionBy($"prediction").orderBy($"count".desc)
 val dfTop3= dataDF.withColumn("rn", row_number().over(w)).where($"rn" <= 3).drop("rn")

spark2.x以后：row_number().over()

结果为：

+-----+----------+-----+
|title|prediction|count|
+-----+----------+-----+
|动物园|0 |5 |
|降压药 |0 |4 |
|通行 |0 |2 |
|合格 |1 |12 |
|艺术大师 |1 |10 |
|外白渡桥 |1 |9 |
|史记 |2 |6 |
|住院 |2 |4 |
|中秋节 |2 |3 |

spark2.2.1

functions包api地址:http://spark.apache.org/docs/2.2.1/api/scala/index.html#org.apache.spark.sql.functions$

Windows包api地址：http://spark.apache.org/docs/2.2.1/api/scala/index.html#org.apache.spark.sql.expressions.Window