第13章 分布式爬虫
通过第1章到第7章的学习,应该已经能够请求URL获取网页数据,并通过解析网页存储数据了,说明已经掌握了使用爬虫的入门基础技术获取数据,但是这样单线程的爬虫效率低,会将大量时间浪费在等待中。
通过第8章到第12章的学习,应该能够使用多线程、多进程或多协程成倍提升爬虫的效率,甚至通过将爬虫部署在服务器上将自己的个人计算机解放出来,说明已经能够提供一个较为成熟的爬虫方案了。
但是,即使能够将爬虫部署在不同服务器上,在不同服务器上使用多线程爬虫提升效率,仍然存在两个问题:
(1)服务器之间没有通信,每个服务器的待爬网页还是需要手动分配。
(2)存储数据还是在各个服务器上,并没有集中存储到某一个服务器或数据库中。
本章介绍的分布式爬虫能够很好地解决这个问题。通过使用分布式爬虫,一方面能极大地提高爬虫的效率;另一方面,不同服务器之间的统一管理能够实现从不同服务器爬虫的队列管理到数据存储的优化。
目录
13.2.3 使用Redis Desktop Manager管理