最近学习scrapy爬虫框架,领略到中间件的强大作用,随机设置UA、设置代理、对接selenium等,但是对于process_request以及process_response的返回值和他们的作用不是很理解,网上的解释也十分笼统,如下截屏:

今天我做了一个相关的测试,详细看看不同返回值scrapy是如何处理的。
主函数如下:

process_request
- 返回None
代码如下:

结果如下:

可以看到,打印了这是第一次请求,并且输出了百度的官网源代码,程序与我们想的一样,process_response打印源码并且返回给引擎,然后可以调用parse函数对其进行提取数据。
- 返回Request
代码如下:

记得返回request的时候需要把dont

最低0.47元/天 解锁文章
979

被折叠的 条评论
为什么被折叠?



