文章目录 一、提出任务 二、完成任务 (一)新建Maven项目 (二)添加相关依赖和构建插件 (三)创建日志属性文件 (四)创建分组排行榜单例对象 (五)本地运行程序,查看结果 (六)交互式操作查看中间结果 1、读取成绩文件得到RDD 2、利用映射算子生成二元组构成的RDD 3、按键分组得到新的二元组构成的RDD 4、按值排序,取前三 5、按指定格式输出结果 一、提出任务 分组求TopN是大数据领域常见的需求,主要是根据数据的某一列进行分组,然后将分组后的每一组数据按照指定的列进行排序,最后取每一组的前N行数据。 有一组学生成绩数据 张三丰 90 李孟达 85 张三丰 87 王晓云 93 李孟达 65 张三丰 76 王晓云 78 李孟达 60 张三丰 94 王晓云 97 李孟达 88 张三丰 80 王晓云 88 李孟达 82 王晓云