MapReduce编程:1.groupBy, 统计每月航班延迟到达的比例
题目要求
航空公司数据集,每一行包括如下数据
统计每月航班延迟到达的比例
分析
- 如果作为一个普通数学题,我们解题的步骤是先统计每个月的航班总数,然后统计每个月延时的航班的总数,然后做除法,所以放在计算机里面,我们可以在统计每个月航班总数的同时,也记录下延时的航班总数,然后做除法
- 那么利用MapReduce的思维,先进行map(任务分解),然后reduce(结果汇总)
- 对于map,要做的就是将任务分解,输入肯定是原始的文本,而输出的就是<月份,1>的键值对(因为MapReduce是一行一行读取数据,一行肯定只有一条数据,所以值为1),但是发现,值为1没办法区分是否延时,所以我们可以采用两个数进行区分,比如我使用的是1代表未延时,0表示延时(也可以使用别的数字),所以我的map就会出现两种结果,如果延时,结果为<月份,0>;如果未延时,结果为<月份,1>
- 对于reduce,要做的是将结果汇总(其实中间还有一步shuffle的过程,是将map的结果进行分类),输入是来自分类的map的处理结果,就是<月份,0和1的列表>,输出就是<月份,延时比例>
- 听懵了?没关系,下面用图和代码来解释
准备工作
- ubuntu14环境
- 已经启动的hadoop
- 已经安装好hadoop插件的eclipse
- 一个原始数据集
对于前三个东西,在上一篇博客已经介绍过了,对于最后一个,要自己准备
上一篇博客:https://blog.youkuaiyun.com/Dongroot/article/details/88562502
(下面的操作都是在ubuntu下进行)原始数据集怎么准备,在桌面新建一个txt文档,内容为。。。。难得写了,就是最上面那张图,然后以英文逗号隔开,一行一条记录,比如
我们需要关注的就是图中框起来的三列,分别是月份,飞机真实到达时间和原定到达时间,所以其他列的数据都是没用的,