19、大数据分析中的MapReduce应用:航班数据实例探究

大数据分析中的MapReduce应用:航班数据实例探究

在大数据分析领域,MapReduce 是一种强大的编程模型,可用于处理大规模数据集。本文将通过几个实际例子,详细介绍如何使用 MapReduce 对航班数据进行分析,包括数据子集提取、协方差计算以及分组统计等操作。

1. 简单数据子集提取

在处理大规模数据集时,我们常常需要提取其中的子集。这里以 airlinesmall.csv 数据集为例,该数据集包含了多个航空公司的航班信息,共 29 列。

1.1 数据准备

首先,创建一个数据存储对象,并选择所需的 15 个变量:

ds = datastore('airlinesmall.csv', 'TreatAsMissing', 'NA');
ds.SelectedVariableNames = ds.VariableNames([1 2 5 9 12 13 15 16 17 ...
    18 20 21 25 26 27]);

所选变量如下:
| 分类 | 变量 |
| ---- | ---- |
| 列 1 - 4 | {‘Year’} {‘Month’} {‘DepTime’} {‘UniqueCarrier’} |
| 列 5 - 8 | {‘ActualElapsedTime’} {‘CRSElapsedTime’} {‘ArrDelay’} {‘DepDelay’} |
| 列 9 - 13 | {‘Origin’} {‘Dest’} {‘Tax

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值