【Python爬虫】Python网络爬虫案例：维基百科

最新推荐文章于 2025-06-04 17:40:00 发布

镰刀韭菜

最新推荐文章于 2025-06-04 17:40:00 发布

阅读量3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习与机器学习文章标签：深度优先广度优先网络爬虫 Python 多线程

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/96377981

深度学习与机器学习专栏收录该内容

103 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本案例详细介绍了如何使用Python爬取维基百科的词条链接，涉及深度优先的递归爬虫和广度优先的多线程爬虫。通过对网页的分析，提取以/wiki/开头且不含特殊字符的链接，并讨论了两种遍历算法在网络爬虫中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python网络爬虫案例：维基百科

1.项目描述

本案例的目标是爬取维基百科上的词条连接。爬虫深度设置为两层。

网络蜘蛛：是通过网页的链接地址寻找网页的，从网站某一个页面（通常是首页）开始读取网页的内容，找到在网页中其他链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

如何把整个网站的所有网页都爬取一遍呢？涉及到两个基本算法：基于深度优先的遍历和基于广度优先的遍历。

2.网站分析

网页首页为：https://en.wikipedia.org/wiki/Wikipedia

首先，分析词条链接的特点；

然后，得到该页面的所有链接：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : GetLink.py
@Author: Xinzhe.Pang
@Date  : 2019/7/18 20:44
@Desc  : 
"""
import requests
from bs4 import BeautifulSoup

url = "https://en.wikipedia.org/wiki/Wikipedia"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

r = req