记忆碎片之主动关闭scrapy+selenium+pyQt5爬虫系统

最新推荐文章于 2025-07-08 11:02:07 发布

原创最新推荐文章于 2025-07-08 11:02:07 发布 · 759 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #爬虫 #pyqt #selenium

爬虫专栏收录该内容

43 篇文章

订阅专栏

本文探讨了在PyQt5封装的GUI界面下，如何在Scrapy爬虫中实现序列号验证功能。当序列号无效时，通过抛出CloseSpider异常来主动关闭爬虫，并关闭Selenium启动的浏览器，同时保持GUI界面可用，以便用户重新输入序列号。

适用场景：

有的时候，我们用scrapy写了一个爬虫，而且是用到了selenium和pyQt5写出的爬虫，
在GUI界面，我们需要用户输入爬虫的许可证序列号才可以使用我们写好的爬虫，一机一码的那种爬虫，当用户输入我们加密生成的许可证序列号之后才可以用到我们的爬虫系统，在这里面就会出现一些BUG比如：序列号验证之后，如果序列号是无效的，我们应该如何关闭爬虫系统呢，注意----此时程序已经开始运行了，GUI界面已经启动，而且程序在运行过程总，已经把序列号传到了验证系统，而且scrapy也已经初始化好了一个浏览器，那我们已经该怎样关闭爬虫系统，关闭scrapy生成的浏览器呢，但是GUI不能关闭，用户可以继续修改序列号，继续启动爬虫，继续验证序列号，这种循环系统该怎么实现呢？

主动触发关闭scrapy爬虫：

其实非常简单，我们先来看一下官方文档：

CloseSpider
exceptionscrapy.exceptions.CloseSpider(reason='cancelled')
# 可以从蜘蛛回调中引发此异常以请求关闭/停止蜘蛛。支持的参数：

# 参数:	reason (str) -- 关闭的原因
# 例如：：

def parse_page(self, response):
    if 'Bandwidth exceeded' in response.body:
        raise CloseSpider('bandwidth_exceeded')

不错，我们要主动抛出一个异常，触发爬虫系统关闭，我在网上看到一些其他的方法，例如：

self.crawler.engine.close_spider(self, '商品链接输入错误，停止爬虫!')

可能有大佬在spider文件里面用了这个命令，但是我查了百度，基本上看不到详细的描述，强行使用这个命令，可能会导致报错，大概是找不到crawler这个属性，查了半天也不知道这个命令从哪儿引入的，怎么才能这样使用，所以我用了另一种办法

from scrapy.exceptions import CloseSpider
if True :
	pass
else:
	raise CloseSpider("商品链接输入错误，停止爬虫!")

在验证条件失败时，抛出异常，关闭爬虫系统，同事关闭selenium启动的浏览器，继续使用GUI就行
注意：当前的爬虫系统是用pyQt5封装好界面的，在GUI并不会看到报错信息，但是GUI启动时会启动一个黑框，在黑框里面会有详细的日志信息，不过这不影响我们使用爬虫系统
具体的报错信息是
在这里插入图片描述
这个爬虫系统也借鉴了许多前辈们的经验，我自己能力也得到了提升，比如，如何在GUI程序中启动不同的爬虫，或者传递不同的参数，或者pyQt5程序和scrapy之间的通信问题，又或者使用pyinstaller打包整个爬虫系统等等，收获还是蛮多的。
如果有开发GUI界面的scrapy的朋友遇到类似问题，可直接评论留言，有时间我会回复的。