最近公司需要爬取网站业务信息,开启一个爬虫小项目,爬取某网站全站链接后查找需要的信息,这里是第一部分,先完成对全站的链接爬取,后面传入url后查找信息并不是难点。具体思路,通过首页url,爬取html李所有链接,然后创建队列,在队列中加入新的url后,重新调用爬取html函数,直到网站最深处,爬取结束。
首先进入首页,完成网站爬取
def getHtml(url, ua_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko',
num_retries=5):
headers = {"User-Agent":ua_agent}
req = request.Request(url, headers=headers)
html = None
try:
response = request.urlopen(req)
html = response.read().decode('utf-8')
except error.URLError or error.HTTPError as e:
if num_retries > 0:
if hasattr(e,'code') and 500 <= e.code < 600:
getHtml(url, ua_agent, num_retries-1)
return html
二,对html分析提取所有href
def get_urls(html):
"""
获取当前页面中所有的超链接的列表信息
"""
links = []
soup = BeautifulSoup(html, "html.parser")
url_list = soup.find_all('a')