Scrapy遇到的坑

1、出现了403的错误,如下所示:
原因是代理被禁止访问,解决方法:
在settings配置文件里修改不设置代理
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
 
 
2、出现了Forbidden by robots.txt的错误
[scrapy] DEBUG: Forbidden by robots.txt: <GET https://movie.douban.com/subject_search?search_text=28%E5%B2%81%E6%9C%AA%E6%88%90%E5%B9%B4>
原因是scrapy是遵守robot协议的,在访问网址前会先访问robot.txt来查看自己是否有权限访问。如果网站不允许被爬,就不能访问。
解决方法,设置不遵守robot协议:
 
 
ROBOTSTXT_OBEY = False

 
 
3、为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置
 
 
ITEM_PIPELINES = {
   'tutorial.pipelines.TutorialPipeline': 300,
}

 
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值