最近由于一门课的project需要用到爬虫,因此在网上找了个教程,边看边学,写了一个爬虫,爬取了深圳市公交路线的线路及站点信息。为了防止以后要用到该爬虫或者作进一步的改进时忘记当初的思路,因此写个博客记录一下。
首先,该爬虫所用的库主要是Requests+BeautifulSoup,Requests库提供了获取网页的函数,BeautifulSoup库帮助我们解析网页,能够让我们快速找到返回的网页中所需要的信息。除此之外,还用了os库输出获取的信息,pandas库用来将获取的信息转换成.csv文件所需要的格式。下面是这次爬虫的全部代码:
import requests
from bs4 import BeautifulSoup
import os
import pandas as pdkv = {'user-agent':'MoMozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36zilla/5.0'}#headers中的浏览器信息
def getHTMLText(url): #获取网页信息
try:
coo = 'thw=cn; v=0; cna=5X1VFf9fTXQCATGNwJx/mYM8; t=0c7d094551823e1719118c805f9e3725; cookie2=112db93e4fac2151b08a825efb50cff4; _tb_token_=e5b3755745e50; lgc=jhcatharnice; dnk=jhcatharnice; tracknick=jhcatharnice; tg=0; uc3=id2=UU20sZyBQC8Xew%3D