Scrapy框架的了解与使用

最新推荐文章于 2025-11-13 10:01:40 发布

原创

最新推荐文章于 2025-11-13 10:01:40 发布 · 903 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Scrapy #爬虫

Scrapy框架是比较常用且成熟的python爬虫框架，可以高效率地爬取web页面并提取出我们关注的结构化数据。前面介绍了手写爬虫的例子，但是每个爬虫都这么写，效率不高，同时造成代码的冗余。而使用爬虫框架可以使代码更加简洁，大大提升效率。本文主要了解一下Scrapy整体的架构、工作流程、常用命令以及创建Scrapy项目。

1.Scrapy架构

如上图所示，scrapy主要由Scrapy Engine、Scheduler、Downloader Middlewares、Downloader、Spider、Spider Middlewares、Item Pipline组成。

1.Scrapy Engine：是整个Scrapy架构的核心，负责控制整个数据处理流程、触发业务处理。

2.Scheduler：相当于一个优先队列，存储待爬取的网址，并确定这些网址的优先级，决定下一次爬取哪个网址。

3.Downloader：下载根据URL爬取的网页资源。

4.Downloader Middlewares：对Downloader和Scrapy Engine之间的通信进行处理，可以通过加入自定义代码，对Scrapy功能进行扩展。

5.Spider：爬虫组件，即Scrapy项目中的Spider文件夹内的文件，每个Spider负责实现特定的爬虫功能。

6.Spider Middlewares：主要对爬虫组件与Scrapy Engine之间的通信进行处理，加入自定义代码，可以扩展Scrapy功能。

7.Item Pipline:该组件主要用于接收Spider组件提取出来的Item，并对这些Item进行相应的处理。

2.Scrapy工作流程

1.Scrapy Engine会将爬虫文件中start_urls属性中的网址传递给Scheduler中

2.Scheduler分析出下一次要爬取的网址，并传递给Scrapy

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。