第12章 服务器采集
前面介绍的都是本机上的网络爬虫,包括如何获取网页、如何解析网页上的数据以及将数据存储在文件或数据库中。除此之外,还介绍了在遇到爬虫问题的时候的各种解决方法。
本章将介绍一种方法,能够解放你的计算机,让爬虫程序运行在“云”上,也能够让你随意改变自己的IP地址,进而走出爬虫被封IP的困境。
目录
12.1 为什么使用服务器采集
经过前几章的学习,大家可能已经习惯在本机的Jupyter上写爬虫程序了。如果是小规模的爬虫或测试爬虫程序,这也许已经绰绰有余。但当编写大规模的爬虫程序时,在服务器上部署爬虫就不可避免了。使用服务器采集有两大原因:
(1)大规模爬虫的需要。
(2)防止IP地址被封杀。