PySpark实战 - 2.4 利用Spark SQL实现分组排行榜

原创于 2025-12-20 22:57:26 发布 · 64 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#PySpark SQL #分组排行榜 #TopN

我们一起学习Spark 专栏收录该内容

14 篇文章

订阅专栏

文章目录

1. 实战概述
2. 实战步骤
3. 实战总结

1. 实战概述

本次实战基于 Spark SQL 对学生成绩数据进行分组 Top3 排行统计。通过读取 HDFS 上的成绩文件，解析姓名与分数，利用窗口函数 ROW_NUMBER() 按学生分组并降序排序，筛选出每人最高三次成绩，最终按指定格式输出结果，展示了 Spark SQL 在分组排名场景中的高效处理能力。

2. 实战步骤

在这里插入图片描述

3. 实战总结

本次实战完成了“每个学生最高三个分数”的典型 TopN 分析任务。首先将原始文本数据解析为结构化 DataFrame，创建临时视图后，借助 ROW_NUMBER() OVER (PARTITION BY name ORDER BY grade DESC) 窗口函数为每名学生的成绩排序并编号，再筛选排名 ≤3 的记录。最后通过 RDD 的 groupByKey() 在 Driver 端聚合并格式化输出，简洁实现了如“张三丰: 94 90 87”的展示效果。整个流程融合了 Spark SQL 的声明式查询优势与 Python 的灵活后处理能力，既保证了分布式计算效率，又满足了业务展示需求。该方法可轻松扩展至 Top5、Top10 等场景，是用户行为分析、成绩统计等业务中常用的数据处理范式。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

酒城译痴无心剑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。