做了一个电商的爬虫,仅做学习使用

记录一下遇到的坑:
整个开发步骤为,利用scrapy爬几大电商网站的商品图片,然后开发UI,根据输入的信息,执行不同的爬虫。坑就主要在这个地方
1. 如何向scrapy爬虫传递配置信息,包括要爬取的电商网站(即要启动的spider),商品名称,数据库信息,图片保存路径?(不同的爬虫使用不同的配置)
scrapy框架,在settings.py中设置整个项目的配置信息,项目里面所有的spider公用一个配置,不同的爬虫,需要使用不同的配置,即使用不同的settings启动爬虫:
2019年4月23日更新
scrapy框架中,settings有其优先级,官方文档(scrapy-settings)中有如下说明:
设定可以通过多种方式设置,每个方式具有不同的优先级。 下面以优先级降序的方式给出方式列表:
1. 命令行选项(Command line Options)(最高优先级)
2. 每个spider的设定(customer_settings)
3. 项目设定模块(Project settings module)
4. 命令默认设定模块(Default settings per-command)
5. 全局默认设定(Default global settings) (最低优先级)

本文介绍了如何在Pyqt5界面应用中结合Scrapy爬虫进行商品图片抓取。针对不同爬虫配置问题,文章讨论了通过命令行参数、custom_settings以及CrawlerProcess的不同启动方式,并在UI主线程中使用子线程启动Scrapy爬虫,同时解决跨线程通信和获取爬虫状态的挑战。
最低0.47元/天 解锁文章
2796

被折叠的 条评论
为什么被折叠?



