大数据分析中的MapReduce应用:航班数据实例探究
在大数据分析领域,MapReduce 是一种强大的编程模型,可用于处理大规模数据集。本文将通过几个实际例子,详细介绍如何使用 MapReduce 对航班数据进行分析,包括数据子集提取、协方差计算以及分组统计等操作。
1. 简单数据子集提取
在处理大规模数据集时,我们常常需要提取其中的子集。这里以 airlinesmall.csv 数据集为例,该数据集包含了多个航空公司的航班信息,共 29 列。
1.1 数据准备
首先,创建一个数据存储对象,并选择所需的 15 个变量:
ds = datastore('airlinesmall.csv', 'TreatAsMissing', 'NA');
ds.SelectedVariableNames = ds.VariableNames([1 2 5 9 12 13 15 16 17 ...
18 20 21 25 26 27]);
所选变量如下:
| 分类 | 变量 |
| ---- | ---- |
| 列 1 - 4 | {‘Year’} {‘Month’} {‘DepTime’} {‘UniqueCarrier’} |
| 列 5 - 8 | {‘ActualElapsedTime’} {‘CRSElapsedTime’} {‘ArrDelay’} {‘DepDelay’} |
| 列 9 - 13 | {‘Origin’} {‘Dest’} {‘Tax
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



