一、数据清洗
1.数据清洗思路
上一节我们将爬取的客流数据保存到txt文件中,为了进一步开展客流分析,首先对txt中的数据进行清洗,提取出日期和各条线路具体的客流数字,保存成csv格式。
这块基于re正则表达式提取出我们需要的关键信息。txt文件中每一行代表某一天的客流数据,例如:下面字符串是4月5日的客流信息。基于python的re模块,编写正则表达式进行提取。
Thu Apr 06 09:02:34 +0800 2023 #客流数据#4月5日,西安地铁线网客流286.43万人次。其中,1号线44.19万人次,2号线76.16万人次,3号线48.56万人次,4号线40.97万人次,5号线25.12万人次,6号线36.84万人次,9号线8.01万人次,14号线5.92万人次,西户线0.66万人次。
一个正则表达式在线测试网址:https://tool.oschina.net/regex,可以测