《Python网络爬虫从入门到实践第2版》第13章分布式爬虫

jxgy01

于 2021-07-07 16:35:46 发布

阅读量110

点赞数

分类专栏： Python网络爬虫从入门到实践第2版

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jxgy01/article/details/118550860

版权

Python网络爬虫从入门到实践第2版专栏收录该内容

18 篇文章 ¥30.00 ¥99.00

订阅专栏

本文介绍了如何通过Redis构建分布式爬虫，解决单线程爬虫效率低和服务器间管理的问题。首先讲解了Redis的安装与配置，包括设置访问密码和开启远程访问。接着，通过实例展示了如何将图片URL加入Redis队列并从队列中读取下载，实现了分布式爬虫的客户端（master）和服务器（slave）功能，提高了爬虫的效率和稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第13章　分布式爬虫

通过第1章到第7章的学习，应该已经能够请求URL获取网页数据，并通过解析网页存储数据了，说明已经掌握了使用爬虫的入门基础技术获取数据，但是这样单线程的爬虫效率低，会将大量时间浪费在等待中。

通过第8章到第12章的学习，应该能够使用多线程、多进程或多协程成倍提升爬虫的效率，甚至通过将爬虫部署在服务器上将自己的个人计算机解放出来，说明已经能够提供一个较为成熟的爬虫方案了。

但是，即使能够将爬虫部署在不同服务器上，在不同服务器上使用多线程爬虫提升效率，仍然存在两个问题：

（1）服务器之间没有通信，每个服务器的待爬网页还是需要手动分配。

（2）存储数据还是在各个服务器上，并没有集中存储到某一个服务器或数据库中。

本章介绍的分布式爬虫能够很好地解决这个问题。通过使用分布式爬虫，一方面能极大地提高爬虫的效率；另一方面，不同服务器之间的统一管理能够实现从不同服务器爬虫的队列管理到数据存储的优化。

目录

第13章　分布式爬虫

13.1　安装Redis

13.2　修改Redis配置

13.2.1　修改Redis密码

13.2.2　让Redis服务器被远程访问

13.2.3　使用Redis Desktop Manager管理

13.3　Redis分布式爬虫实践

13.3.1　安装Redis库

13.3.2　加入任务队列

13.3.3　读取任务队列并下载图片

13.3.4　分布式爬虫代码

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。