原文地址:http://blog.youkuaiyun.com/feifly329/article/details/49702063
在抓取 http://www.xiaohuar 网站的图片时,递归获取详情页面时,提示: Filtered offsite request to
原因:
是request的地址和allow_domain里面发生了冲突,从而被过滤掉了
解决办法:
1.可以停用过滤功能
2.yield Request(url, callback=self.parse_item, dont_filter=True)
爬虫过滤问题解决
本文介绍了在爬取特定网站图片时遇到的过滤问题及其原因。主要原因是请求的URL与允许的域名设置发生冲突,导致请求被过滤。文章提供了两种解决方案:一是停用过滤功能;二是使用dont_filter参数设置为True来避免请求被过滤。
571

被折叠的 条评论
为什么被折叠?



