第9章 反爬虫问题
爬虫、反爬虫和反反爬虫是网络爬虫过程中一直伴随的问题。
现实世界的网络爬虫程序并不像之前介绍的爬取博客那么简单,运行不如意者十有八九。首先需要理解一下“反爬虫”这个概念,其实就是“反对爬虫”。根据网络上的定义,网络爬虫为使用任何技术手段批量获取网站信息的一种方式。“反爬虫”就是使用任何技术手段阻止批量获取网站信息的一种方式。
本章主要介绍反爬虫问题,包括网站对爬虫实施限制封锁的原因和爬虫程序如何解决这个问题。
目录
9.1 为什么会被反爬虫
对于一个经常使用爬虫程序获取网页数据的人来说,遇到网站的“反爬虫”已经是司空见惯。
那么,网站为什么要“反爬虫”呢?
第一,网络爬虫浪费网站的流量,也就是浪费钱。爬虫对于一个网站来说并不算是真正用户的流量,而且往往能够不知疲倦地爬取网站。更有甚者,使用分布式的多台机器爬虫,造成网站浏览量增高,浪费网站流量。
第二,数据是每家公司非常宝