转载请注明出去:http://blog.youkuaiyun.com/xiaojimanman/article/details/41117357
更多hadoop内容请访问:http://blog.youkuaiyun.com/xiaojimanman/article/category/2640707
对于求每个学生成绩的平均数和top N问题在数据库中可以通过sql语句就实现出来,这里就不在做介绍。本文主要通过实例介绍hadoop如何求平均数以及输出TOP N。
需求描述:
求文件中每个学生的平均成绩,并将平均成绩最高的N个输出。
数据格式:
文件中的一行数据为一门成绩记录,简化模型结果为“学生唯一标识 成绩”,eg: "zs 90",本次测试数据如下图所示:
需求分析:
平均值:mapreduce程序中的map函数只简单处理记录中的一行数据,输出结果为 key为学生唯一标识,value为学生的单科成绩;ruduce函数中实现对每一个学生的成绩求平均值。(之前博客中有有关于mapreduce程序的输入输出问题,就不再作图分析)
&n