使用hadoop实现平均数~并输出top N

本文介绍了如何使用Hadoop MapReduce计算每个学生的平均成绩,并实现输出最高N个平均成绩的场景。通过Map函数处理数据,Reduce函数计算平均值和Top N。文中提供了解决方案和代码实现,包括遇到大数据量时避免内存溢出的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载请注明出去:http://blog.youkuaiyun.com/xiaojimanman/article/details/41117357

更多hadoop内容请访问:http://blog.youkuaiyun.com/xiaojimanman/article/category/2640707

    对于求每个学生成绩的平均数和top N问题在数据库中可以通过sql语句就实现出来,这里就不在做介绍。本文主要通过实例介绍hadoop如何求平均数以及输出TOP N。


需求描述:

    求文件中每个学生的平均成绩,并将平均成绩最高的N个输出。


数据格式:

     文件中的一行数据为一门成绩记录,简化模型结果为“学生唯一标识 成绩”,eg: "zs 90",本次测试数据如下图所示:



需求分析:

     平均值:mapreduce程序中的map函数只简单处理记录中的一行数据,输出结果为 key为学生唯一标识,value为学生的单科成绩;ruduce函数中实现对每一个学生的成绩求平均值。(之前博客中有有关于mapreduce程序的输入输出问题,就不再作图分析)

&n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值