Python爬虫之Scrapy框架基础

我像影子一样

已于 2024-07-03 10:37:17 修改

阅读量1.6k

点赞数 14

分类专栏： python 文章标签： python 爬虫 scrapy

于 2024-04-10 18:08:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_56181660/article/details/137605636

版权

Scrapy爬虫框架介绍

文档
- 英文文档
- 中文文档
什么是scrapy

基于twisted搭建的异步爬虫框架.

scrapy爬虫框架根据组件化设计理念和丰富的中间件, 使其成为了一个兼具高性能和高扩展的框架
scrapy提供的主要功能
- 具有优先级功能的调度器
- 去重功能
- 失败后的重试机制
- 并发限制
- ip使用次数限制
- …
scrapy的使用场景
- 不适合scrapy项目的场景
  - 业务非常简单, 对性能要求也没有那么高, 那么我们写多进程, 多线程, 异步脚本即可.
  - 业务非常复杂, 请求之间有顺序和失效时间的限制.
  - 如果你不遵守框架的主要设计理念, 那就不要使用框架
- 适合使用scrapy项目
  - 数据量大, 对性能有一定要求, 又需要用到去重功能和优先级功能的调度器
scrapy组件
- ENGINE从SPIDERS中获取初始请求任务Requests
- ENGINE得到Requests之后发送给SCHEDULER, SCHEDULER对请求进行调度后产出任务.
- Scheduler返回下一个请求任务给ENGINE
- ENGINE将请求任务交给DOWNLOADER去完成下载任务, 途径下载器中间件.
- 一旦下载器完成请求任务, 将产生一个Response对象给ENGINE, 途径下载器中间件
- ENGINE收到Response对象后, 将该对象发送给SPIDERS去解析和处理, 途径爬虫中间件

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。