第14章 爬虫实践一:维基百科
“是骡子是马,拉出来遛遛”。我们已经将Python网络爬虫的技术系统地学习完了,后面几个章节开始进入实践环节。每一章都会使用之前学习的技术,通过实践提升爬虫的技术水平。只有通过实践,才能真正地积累知识,掌握网络爬虫的点石成金之术。
维基百科是一个网络百科全书,在一般情况下允许用户编辑任何条目。当前维基百科由非营利组织维基媒体基金会负责营运。维基百科一词是由网站核心技术Wiki和具有百科全书之意的encyclopedia共同创造出来的新混合词Wikipedia。
本章将给出一个爬取维基百科的实践项目,所采用的爬虫技术包括以下4种。
·爬取网页:静态网页爬虫
·解析网页:正则表达式
·存储数据:存储至txt
·进阶新技术:深度优先的递归爬虫,广度优先的多线程爬虫
目录