Scrapy是一个python的爬虫架构,但是这个架构的工作原理是怎么的呢?也就是说,Scrapy的框架是怎么样的。网上已经有很多博文说这个框架了,但是我想用另外一种方法来讲述。
话说有一天,我想写一个爬虫。爬虫,说白了就是去互联网上下载东西,然后提取下载下来的页面中有用的字段。这件事怎么说也是一个工程吧,作为一个工程师,好吧,就是一个码农,你的模块化思想应该体现出来了。
下载东西和提取页面中需要的字段就是两个模块了。我们命名为Downloader和Dealer。
提取出来东西了,我们得考虑怎么存储吧,所以我们再引入一个模块,用来后续加工。加工数据流就像是数据流通过管道一样,所以,我们把这个对数据做后期存储、验证的模块叫做Pipline。
我们的框架建立好了,爬虫开始出发了!
爬虫很开心,但是,不一会儿,爬虫就不知道该往哪里去了,因为爬了一个网页后,没有人告诉这个爬虫下一步应该去哪里。我们的Dealer模块是可以提取“下一页”这样的链接的,但是他并没有安排给爬虫去进行下一次爬取的任务。所以,我们需要一个

本文深入解析Scrapy爬虫架构,包括Downloader(下载器)、Spider(蜘蛛)、Pipline(管道)和Scheduler(调度器)四大模块的作用。通过模块化的思维,阐述了数据的下载、处理、存储过程,并揭示了Middleware(中间件)在数据传输中的作用,帮助读者全面理解Scrapy的工作流程。
最低0.47元/天 解锁文章
1200

被折叠的 条评论
为什么被折叠?



