一、目标
通过Python编写爬虫程序,爬取西安地铁发布的客流数据,并保存到CSV文件中,并进行数据可视化与分析。
本次使用的库包括:requests、BeautifulSoup、xpath、csv、json、Pycharts等。
二、爬取思路分析
1、WB网页版
打开XLWB主页网址。
图1.新浪微博手机端网址
然后我们输入西安地铁,打开西安地铁账号主页。
图2.西安地铁微博主页
滑动页面向下,可以看到一条内容,继续往下滑我们发现不断有新的微博内容出现,但是网页的URL却没有变化。因此,我们可以推断出网页是异步加载方式。
异步