Spark SQL与数据集操作指南
1. 窗口函数的应用
在数据处理中,我们常常需要对特定分组的数据进行排序和筛选。使用 dense_rank() 窗口函数可以快速找出三个出发城市中延误情况最严重的目的地。
1.1 SQL查询示例
spark.sql("""
SELECT origin, destination, TotalDelays, rank
FROM (
SELECT origin, destination, TotalDelays, dense_rank()
OVER (PARTITION BY origin ORDER BY TotalDelays DESC) as rank
FROM departureDelaysWindow
) t
WHERE rank <= 3
""").show()
1.2 查询结果
| origin | destination | TotalDelays | rank |
|---|---|---|---|
| SEA | SFO | 22293 | 1 |
| SEA | DEN | 1 |
超级会员免费看
订阅专栏 解锁全文
2063

被折叠的 条评论
为什么被折叠?



