python广度优先爬取全站超链接和url

最近公司需要爬取网站业务信息,开启一个爬虫小项目,爬取某网站全站链接后查找需要的信息,这里是第一部分,先完成对全站的链接爬取,后面传入url后查找信息并不是难点。具体思路,通过首页url,爬取html李所有链接,然后创建队列,在队列中加入新的url后,重新调用爬取html函数,直到网站最深处,爬取结束。

首先进入首页,完成网站爬取

def getHtml(url, ua_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko',
            num_retries=5):
    headers = {"User-Agent":ua_agent}
    req = request.Request(url, headers=headers)
    html = None
    try:
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
    except error.URLError or error.HTTPError as e:
        if num_retries > 0:
            if hasattr(e,'code') and 500 <= e.code < 600:
                getHtml(url, ua_agent, num_retries-1)
    return html 

二,对html分析提取所有href

def get_urls(html):
    """
    获取当前页面中所有的超链接的列表信息
    """
    links = []
    soup = BeautifulSoup(html, "html.parser")
    url_list = soup.find_all('a')
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值