文章目录 一、提出任务 二、完成任务 (一)准备数据 1、在虚拟机上创建文本文件 2、上传文件到HDFS指定目录 (二)实现步骤 1、创建Maven项目 2、添加相关依赖 3、创建日志属性文件 4、创建前N成绩映射器类 5、创建前N成绩归并器类 6、创建前N成绩驱动器类 7、启动应用,查看结果 一、提出任务 分组求TopN是大数据领域常见的需求,主要是根据数据的某一列进行分组,然后将分组后的每一组数据按照指定的列进行排序,最后取每一组的前N行数据。 有一组学生成绩数据 张三丰 90 李孟达 85 张三丰 87 王晓云 93 李孟达 65 张三丰 76 王晓云 78 李孟达 60 张三丰 94 王晓云 97 李孟达 88 张三丰 80 王晓云 88 李孟达 82 王晓云