Spiders 组件是 Scrapy 框架的核心组件,它定义了网络爬虫抓取网站数据的方式,其中包 括抓取的动作,如是否跟进链接,以及如何从网页内容中提取结构化数据。换言之,Spiders 组件用于定义抓取网页数据的动作及解析网页数据。
编程梦想家(大学生版)-优快云博客
那么,Spiders 组件是如何循环抓取所有网页数据的呢?对于使用 Scrapy 编写的爬虫来说,
循环抓取网页数据的流程分为如下
4
个步骤。
(1) 根据初始 URL 创建 Request ,并设置回调函数。当该 Request 设置完毕后返回 Response ,并将 Response 作为参数传递给该回调函数。需要说明的是,爬虫中初始的 Request 是通过调