1.问题描述
在windows10系统下使用scrapy shell命令进行爬虫,结果失败出现错误crawled(403),这说明爬取的网站具有反爬机制。
2.解决方法
(1)在开头命令加 -s USER_AGENT = 'Mozilla/5.0'
这种方法比较简单,但是需要每次使用时都要添加,比较麻烦。
(2)修改scrapy的user_agent的默认值,在python的安装程序里面,我的路径为‘E:\python36\Lib\site-packages\scrapy\settings\default_settings.py’
把user_agent的值改为'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'
保存后,再次使用scrapy shell命令不会出现crawled(403)错误。