纽约市黄色出租车行程分析:Shell脚本实战
1. 数据预处理与新数据生成
在进行出租车行程数据分析之前,我们需要生成包含行程持续时间“计算字段”的新数据。可以使用以下命令来完成这一操作:
robin ~/Lesson4 $./taxi6.sh <nyc_taxi.csv >nyc_taxi2.csv
为了验证新数据是否生成成功,我们可以查看新数据文件的前五行:
robin ~/Lesson4 $ head -n5 nyc_taxi2.csv
2017-01-09 11:13:28,2017-01-09 11:25:45,1,3.30,15.30,737
2017-01-09 11:32:27,2017-01-09 11:36:01,1,0.90,7.25,214
2017-01-09 11:38:20,2017-01-09 11:42:05,1,1.10,7.30,225
2017-01-09 11:52:13,2017-01-09 11:57:36,1,1.10,8.50,323
2017-01-01 00:00:02,2017-01-01 00:03:50,1,0.50,5.30,228
同时,我们还可以查看在数据处理过程中消除了多少无效行:
robin ~/Lesson4 $ wc -l nyc_taxi.csv
200000 nyc_taxi.csv
robin ~/Lesson4 $ wc