R数据科学—练习3.2.4答案

一、找出满足以下条件的所有航班

1.到达时间延误2小时或更多的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经过filter()函数筛选到达时间延误2小时或更多的航班,原数据集336776行观测剩余10200行(不含缺失值)。

2.飞往休斯顿(IAH机场或HOU机场)的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经filter()函数筛选飞往休斯顿(IAH机场或HOU机场)的航班,原数据集336776行观测剩余9313行观测。

3.由联合航空(United)、美利坚航空(American)或三角洲航空(Delta)运营的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经filter()函数筛选由联合航空(United)、美利坚航空(American)或三角洲航空(Delta)运营的航班,原数据集的336776行观测剩余139504行。

4.夏季(7月、8月和9月)出发的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.到达时间延误超过2小时,但出发时间没有延误的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经filter函数筛选到达时间延误超过2小时,但出发时间没有延误的航班,原数据集336776行观测剩余29行观测,说明这种情况的航班较少(准时出发却在空中多飞了两个多小时确实是一件很恐怖的事情)。

6. 延误至少一小时,但飞行过程弥补回30min的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经filter()函数筛选延误至少一小时,但飞行过程弥补回30min的航班,原数据集的336776行观测剩余230行。

7.出发时间在午夜和早上6点之间(包括0点和6点)的航班

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经filter()函数筛选出发时间在午夜和早上6点之间(包括0点和6点)的航班,原数据集的观测数由336776行减少到了9344行。

二、dplyr中对筛选有帮助的另一个函数是between()。它的作用是什么?你能使用这个函数来简化解决前面问题的代码吗?

在这里插入图片描述
在这里插入图片描述
between()函数适用于涉及单个变量,且取区间值的问题。
在这里插入图片描述
在这里插入图片描述

三、dep_time有缺失值的航班有多少?其他变量的缺失值情况如何?这样的行表示什么情况?

在这里插入图片描述
在这里插入图片描述
dep_time有缺失值的航班8255次,dep_delay和arr_time也是缺失值,这样的行表示此次航班可能被取消了。

四、为什么NA ^ 0的值不是NA?为什么NA | TRUE的值不是NA?为什么FALSE & NA的值不是NA?你能找出一般规律吗?(NA*0则是精妙的反例!)

1.因为无论NA是什么值,任何值的0次方都为1;

2.因为是“或”的运算,只要有TRUE,结果就为TRUE;

3.因为是“与”的运算,不论NA是什么值,已经有FALSE存在了,结果就为FALSE;

4.NA*0结果为0(确实是反例,按理来说任何数乘以0都为0)

在这里插入图片描述

5.一般规律是:如果运算中包含了未知值,那么运算结果一般来说也是个未知值,但极少数特例除外。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值