Scrapy框架
文章平均质量分 87
不会飞的鲨鱼
如果selenium有用,还要逆向干什么?
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy框架之Scrapyd部署及Gerapy分布式爬虫管理框架的使用
Scrapyd是一个用于部署和运行 Scrapy 爬虫的服务器。原创 2025-05-07 23:25:02 · 1449 阅读 · 0 评论 -
Scrapy框架之【settings.py文件】详解
文件的主要作用是对Scrapy项目的全局设置进行集中管理。借助修改这个文件中的配置项,你可以对爬虫的行为、性能、数据处理等方面进行灵活调整,而无需修改爬虫代码。原创 2025-05-03 16:49:00 · 1123 阅读 · 0 评论 -
Scrapy框架之【Scrapy-Redis】分布式爬虫详解
是一个基于Redis实现的 Scrapy 分布式爬虫组件。Scrapy 本身是一个强大的 Python爬虫框架,但它默认是单进程单线程的,在面对大规模数据抓取任务时效率不高。则解决了这一问题,它允许你将 Scrapy爬虫扩展到多个机器上运行,从而实现分布式爬虫的功能。提供了一个基于Redis的调度器,用于管理待爬取的请求队列。不同的爬虫实例可以从这个共享的队列中获取请求,避免了请求的重复抓取。:使用Redis的集合(set)数据结构实现了请求去重的功能,确保每个请求只被处理一次。原创 2025-05-01 01:00:53 · 1241 阅读 · 1 评论 -
Scrapy框架之【Scrapy-Splash 爬取动态网页】 详解
是一个用于Scrapy的扩展,其主要功能是处理动态网页。Scrapy 本身在抓取静态网页时表现出色,但对于由 JavaScript 渲染的动态网页,它的处理能力有限。而借助Splash服务,能够让Scrapy抓取动态生成的内容。抓取动态网页的内容。原创 2025-05-01 00:58:44 · 674 阅读 · 1 评论 -
Scrapy框架之 中间件的使用
在实际的爬虫项目中,通常会同时使用爬虫中间件和下载中间件。下载中间件用于处理与 请求和响应相关的底层操作,而爬虫中间件则更侧重于处理与蜘蛛逻辑相关的请求和响应,两者结合可以满足复杂的爬虫需求。例如,在一个爬取电商网站的项目中,可能会使用下载中间件来设置代理和随机,以避免被网站封禁;同时使用爬虫中间件来根据商品的分类过滤请求,只爬取特定类别的商品信息,并对响应中的通用信息进行提取和处理。在 的下载器中间件中,方法的返回值有特定的含义:原创 2025-04-30 00:50:50 · 851 阅读 · 1 评论 -
Scrapy框架之CrawlSpider爬虫 实战 详解
是Scrapy框架中一个非常实用的爬虫基类,它继承自Spider类,主要用于实现基于规则的网页爬取。相较于普通的Spider类,可以根据预定义的规则自动跟进页面中的链接,从而实现更高效、更灵活的爬取。Scrapy 创建爬虫目标网址:http://quotes.toscrape.com/目标:匹配top10标签观察其他的URL链接:在命令行输入,这里的myproject是项目名。:输入。:输入myspider是爬虫名,是初始爬取的域名。原创 2025-04-29 21:53:09 · 2272 阅读 · 0 评论
分享