Scrapy
是一个非常优秀的爬虫框架,通过 Scrapy
框架,可以非常轻松地实现强大的爬虫系统,我们只需要将精力放在抓取规则以及如何处理抓取的数据上即可,本章介绍 Scrapy
的基础架构、安装以及 Scrapy Shell 的使用。
一、Scrapy 简介
Scrapy
是适用于 Python
的一个快速、高层次的屏幕抓取和 web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy
用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy
主要是包括如下 6
个部分。
- Scrapy Engine (Scrapy引擎):用来处理整个系统的数据流,触发各种事件。
- Scheduler (调度器):从
URL
队列中取出一个URL
。