《Python网络爬虫从入门到实践 第2版》第14章 爬虫实践一:维基百科

本章介绍了一个使用Python爬取维基百科词条链接的实践项目,涉及静态网页爬虫、正则表达式解析、存储至txt及递归与多线程爬虫技术。项目目标是爬取维基百科两层深度的词条链接,介绍了深度优先和广度优先的爬虫策略,以及多线程爬虫提高效率的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第14章 爬虫实践一:维基百科

“是骡子是马,拉出来遛遛”。我们已经将Python网络爬虫的技术系统地学习完了,后面几个章节开始进入实践环节。每一章都会使用之前学习的技术,通过实践提升爬虫的技术水平。只有通过实践,才能真正地积累知识,掌握网络爬虫的点石成金之术。

维基百科是一个网络百科全书,在一般情况下允许用户编辑任何条目。当前维基百科由非营利组织维基媒体基金会负责营运。维基百科一词是由网站核心技术Wiki和具有百科全书之意的encyclopedia共同创造出来的新混合词Wikipedia。

本章将给出一个爬取维基百科的实践项目,所采用的爬虫技术包括以下4种。

·爬取网页:静态网页爬虫

·解析网页:正则表达式

·存储数据:存储至txt

·进阶新技术:深度优先的递归爬虫,广度优先的多线程爬虫

目录

第14章 爬虫实践一:维基百科

14.1 项目描述

14.1.1 项目目标

14.1.2 项目描述

14.1.3 深度优先和广度优先

14.2 网站分析

14.3 项目实施:深度优先的递归爬虫

14.4 项目进阶:广度优先的多线程爬虫

14.5 总结


14.1 项目描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值