scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能:
- scheduler - 调度器
- dupefilter - URL去重规则(被调度器使用)
- pipeline - 数据持久化
下面通过爬取顶点小说网帮助大家快速了解scrapy-redis的使用。
items.py:
import scrapy
class SrTestItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
auth = scrapy.Field()
last_update_time = scrapy.Field()
url = scrapy.Field