查看日志 发现报
2018-09-12 00:27:58 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'book.douban.com': <GET https://book.douban.com/top250?start=25>
官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。
yield Request(url, callback=self.parse_item, dont_filter=True)
本文探讨了Scrapy爬虫中遇到的过滤机制问题,即请求的URL与allow_domain设置冲突导致被过滤的情况,并提供了停用过滤功能的方法。
599

被折叠的 条评论
为什么被折叠?



