4.Scheduler调度器
对ExecutionEngine执行引擎篇出现的Scheduler进行展开。Scheduler用于控制Request对象的存储和获取,并提供了过滤重复Request的功能。
Scheduler对象
scheduler对象是通过类的from_cralwer方法生成的。
scrapy/core/scheduler.py#Scheduler:
rom_crawler(cls, crawler):
settings = crawler.settings
dupefilter_cls = load_object(settings['DUPEFILTER_CLASS'])
dupefilter = dupefilter_cls

本文详细分析了Scrapy的Scheduler调度器,包括Scheduler对象的生成,dupefilter如何实现url去重,pqclass优先级队列对Request按优先级排序,dqclass和mqclass分别作为序列化磁盘队列和内存队列的角色,确保爬虫的高效和连续运行。
最低0.47元/天 解锁文章
691

被折叠的 条评论
为什么被折叠?



