使用scrapy爬网页出现403错误

在尝试使用Scrapy爬取网页时遇到了403错误,这通常是因为USER_AGENT被拒绝。解决方案是查看目标网站的请求头,复制USER_AGENT到items.py文件中,然后重新运行爬虫,问题即可得到解决。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

报错内容如下:

2019-09-27 13:32:17 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/robots.txt> (referer: None)
2019-09-27 13:32:17 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/top250> (referer: None)
2019-09-27 13:32:18 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed

403为访问被拒绝,问题出在我们的USER_AGENT上。

解决办法:

打开我们要爬取的网站,打开控制台,找一个请求看看:

复制这段user-agent,打开根目录 items.py文件,粘贴进去:

重新编译运行爬虫:

问题解决~

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值