MapReduce编程：1.groupBy, 统计每月航班延迟到达的比例

最新推荐文章于 2025-10-02 10:52:55 发布

原创

最新推荐文章于 2025-10-02 10:52:55 发布 · 3k 阅读

CC 4.0 BY-SA版权

文章标签：

航空公司数据集，每一行包括如下数据
在这里插入图片描述
统计每月航班延迟到达的比例

如果作为一个普通数学题，我们解题的步骤是先统计每个月的航班总数，然后统计每个月延时的航班的总数，然后做除法，所以放在计算机里面，我们可以在统计每个月航班总数的同时，也记录下延时的航班总数，然后做除法
那么利用MapReduce的思维，先进行map（任务分解），然后reduce（结果汇总）
对于map，要做的就是将任务分解，输入肯定是原始的文本，而输出的就是<月份，1>的键值对（因为MapReduce是一行一行读取数据，一行肯定只有一条数据，所以值为1），但是发现，值为1没办法区分是否延时，所以我们可以采用两个数进行区分，比如我使用的是1代表未延时，0表示延时（也可以使用别的数字），所以我的map就会出现两种结果，如果延时，结果为<月份，0>；如果未延时，结果为<月份，1>
对于reduce，要做的是将结果汇总（其实中间还有一步shuffle的过程，是将map的结果进行分类），输入是来自分类的map的处理结果，就是<月份，0和1的列表>，输出就是<月份，延时比例>
听懵了？没关系，下面用图和代码来解释

对于前三个东西，在上一篇博客已经介绍过了，对于最后一个，要自己准备

上一篇博客：https://blog.youkuaiyun.com/Dongroot/article/details/88562502

（下面的操作都是在ubuntu下进行）原始数据集怎么准备，在桌面新建一个txt文档，内容为。。。。难得写了，就是最上面那张图，然后以英文逗号隔开，一行一条记录，比如

在这里插入图片描述
我们需要关注的就是图中框起来的三列，分别是月份，飞机真实到达时间和原定到达时间，所以其他列的数据都是没用的，

4 条评论

Zlionheart 2019.03.24
需要改驱动程序的job.setOutputKeyClass(Text.class);和 job.setOutputValueClass(Text.class);里面的类玛。我的报错了：java.lang.Exception: java.lang.ArrayIndexOutOfBoundsException: 2
- Zlionheart回复ye_xiao_dong 2019.03.25
  [reply]Dongroot[/reply] 已解决，谢谢你
- ye_xiao_dong回复Zlionheart 2019.03.25
  [reply]Zlionheart[/reply] 这个错误我同学也遇到过，是输入文件的问题，你的输入文件应该是在最后一行多打了一个回车，map根据换行符来判定文本内容，当你多了一个换行符，实际上你的内容已经结束，但是map认为还有一行，所以读了一个空字符串，然后就出现了数组越界