一、找出满足以下条件的所有航班
1.到达时间延误2小时或更多的航班
经过filter()函数筛选到达时间延误2小时或更多的航班,原数据集336776行观测剩余10200行(不含缺失值)。
2.飞往休斯顿(IAH机场或HOU机场)的航班
经filter()函数筛选飞往休斯顿(IAH机场或HOU机场)的航班,原数据集336776行观测剩余9313行观测。
3.由联合航空(United)、美利坚航空(American)或三角洲航空(Delta)运营的航班
经filter()函数筛选由联合航空(United)、美利坚航空(American)或三角洲航空(Delta)运营的航班,原数据集的336776行观测剩余139504行。
4.夏季(7月、8月和9月)出发的航班
5.到达时间延误超过2小时,但出发时间没有延误的航班
经filter函数筛选到达时间延误超过2小时,但出发时间没有延误的航班,原数据集336776行观测剩余29行观测,说明这种情况的航班较少(准时出发却在空中多飞了两个多小时确实是一件很恐怖的事情)。
6. 延误至少一小时,但飞行过程弥补回30min的航班
经filter()函数筛选延误至少一小时,但飞行过程弥补回30min的航班,原数据集的336776行观测剩余230行。
7.出发时间在午夜和早上6点之间(包括0点和6点)的航班
经filter()函数筛选出发时间在午夜和早上6点之间(包括0点和6点)的航班,原数据集的观测数由336776行减少到了9344行。
二、dplyr中对筛选有帮助的另一个函数是between()。它的作用是什么?你能使用这个函数来简化解决前面问题的代码吗?
between()函数适用于涉及单个变量,且取区间值的问题。
三、dep_time有缺失值的航班有多少?其他变量的缺失值情况如何?这样的行表示什么情况?
dep_time有缺失值的航班8255次,dep_delay和arr_time也是缺失值,这样的行表示此次航班可能被取消了。