Python网络爬虫案例:维基百科
1.项目描述
本案例的目标是爬取维基百科上的词条连接。爬虫深度设置为两层。
网络蜘蛛:是通过网页的链接地址寻找网页的,从网站某一个页面(通常是首页)开始读取网页的内容,找到在网页中其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
如何把整个网站的所有网页都爬取一遍呢?涉及到两个基本算法:基于深度优先的遍历和基于广度优先的遍历。
2.网站分析
网页首页为:https://en.wikipedia.org/wiki/Wikipedia
首先,分析词条链接的特点;
然后,得到该页面的所有链接:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File : GetLink.py
@Author: Xinzhe.Pang
@Date : 2019/7/18 20:44
@Desc :
"""
import requests
from bs4 import BeautifulSoup
url = "https://en.wikipedia.org/wiki/Wikiped