Scrapy 爬虫请求无反应之 Forbidden by robots.txt

最新推荐文章于 2025-05-05 20:41:59 发布

倚老賣老

最新推荐文章于 2025-05-05 20:41:59 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/wefinancedream/article/details/91346089

本文介绍了在使用Scrapy爬虫时遇到请求无反应的问题，原因是Scrapy默认遵守robots.txt协议。通过设置settings中的ROBOTSTXT_OBEY为False，可以关闭这一功能，从而解决苏宁图书翻页数据请求无响应的状况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先上菜,关闭Scrapy 自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可完美解决.

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

情景:
在爬取苏宁图书时,获取翻页数据调用无反应,于是打开日志文件发现此现象:

2019-06-08 16:44:43 [scrapy.core.engine] DEBUG

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

倚老賣老

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Scrapy 爬虫 IP 被封问题的解决方案

LYFYSZ123的博客

02-09

1048

Scrapy 爬虫 IP 被封问题是一个常见的问题，可以通过设置合理的请求延迟、使用随机 User-Agent、使用代理 IP、使用 IP 代理池、遵守网站的 robots.txt 文件以及限制爬取速度等方法来解决。根据实际情况选择合适的解决方案，可以有效提高爬虫的成功率和稳定性。

scrapy爬虫使用简明教程

学习机器学习

10-01

1230

目录一、基本框架介绍二、安装与基本命令三、scrapy框架基本使用及完整案例四、各组件的一些用法说明一、基本框架介绍 Scrapy框架介绍： Scrapy是: 由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多...

参与评论您还未登录，请先登录后发表或查看评论

爬虫出现Forbidden by robots.txt

热门推荐

菜鸡瞎讲

06-10

3万+

先说结论，关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。使用scrapy爬取淘宝页面的时候，在提交http请求时出现debug信息Forbidden by robots.txt，看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制，防止爬虫来抓取页面，于是在spider中填入各种header信息，伪装成浏览器，结果还是不行。。。用

java 调用 scrapy_java调用scrapy无反应

weixin_39850599的博客

02-13

140

java调用scrapy无反应StringwriteFilePath="";Stringpath="A:\\0_document\\pythonWorkSpace\\ysu\\ysu";//Stringpath="crawl";//python脚本的路径StringexecutePath=path+"\\main.py";//Stringexec...

python运行脚本没反应_python – Scrapy从脚本运行不起作用

weixin_39613637的博客

12-21

834

我正在尝试使用scrapy crall single运行完美运行的scrapy蜘蛛,但我无法在python脚本中运行它.主要问题是从不执行SingleBlogSpider.parse方法,而执行start_requests这是运行该脚本的代码和输出.我还试图将执行移动到一个单独的文件,但同样的情况发生.from urlparse import urlparsefrom scrapy.http im...

[scrapy] DEBUG: Forbidden by robots.txt

wangjiao1022的博客

03-02

1888

执行命令：scrapy crawl dmoz时，出现[scrapy] DEBUG: Forbidden by robots.txt修改方法：将setting改变ROBOTSTXT_OBEY为False

scrapy 爬虫报错 Forbidden by robots.txt

Yolo_C的博客

10-14

591

使用户scrapy.spider爬取网站的时候，遇到了Forbidden by robots.txt报错， robots.txt是网站爬取的规范协议，很多地方写需要将setting中的robotsbox_obey设置为False，但是这样做是有风险的，我这次报错主要是因为使用了两个月之前的代码再次爬取的时候没有更新cookie，只要更新一下就好了 ...

Scrapy爬虫系列及实战项目教程（FBP内部学习，禁止传播）1

08-08

- `ROBOTSTXT_OBEY`：是否遵守robots.txt规则，设为False意味着不遵守。 - `DOWNLOADER_MIDDLEWARES`：调整下载中间件，如关闭默认的User-Agent中间件。 - `HTTPERROR_ALLOWED_CODES`：允许的HTTP错误代码，403表示...

Scrapy分布式爬虫实战：高效抓取的进阶之旅

最新发布

Kelaru的博客

05-05

1676

本文带你从单机到分布式，用Scrapy-Redis打造战舰编队，席卷数据珍宝！代码无bug，经验实用，助你征服大规模抓取。快来评论区分享你的分布式征程，下一期“Scrapy反爬博弈实战”与你共创辉煌！

scrapy爬虫出现Forbidden by robots.txt

小沫_jie的博客

05-02

1406

转自：http://blog.csdn.net/yimingsilence/article/details/52119720 先说结论，关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。使用scrapy爬取淘宝页面的时候，在提交http请求时出现debug信息Forbidden by robots.txt，看来是请求被拒绝了。开始

Forbidden by robots.txt错误

u014775723的博客

12-19

1000

运行scrapy spider时，出现Forbidden by robots.txt错误原因：在settings.py文件里有个ROBOTSTXT_OBEY参数，默认为True。False为拒绝遵守robot协议，True为遵守robot协议解决：将settings.py文件里的ROBOTSTXT_OBEY参数，设为False.。即ROBOTSTXT_OBEY = False...

scrapy 爬虫有些网站爬不了： Forbidden by robots.txt

java_raylu的博客

01-05

1735

有些网站爬不了，爬虫会自动终止，观察错误代码： 2019-01-05 21:57:21 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 2019-01-05 21:57:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://...

scrapy爬取时出现错误：Forbidden by robots.txt: ＜GET https://www.xinpianchang.com/channel/index/sor

m0_46458132的博客

02-12

745

原因：要爬取网站的robot协议禁止一切爬取，而scrapy遵守robot协议解决：在setting.py文件中修改ROBOTSTXT_OBEY为false，即不遵守

scrapy没有运行结果_scrapy的入门使用

weixin_40006963的博客

12-13

352

1. 掌握 scrapy的安装2. 应用创建scrapy的项目3. 应用创建scrapy爬虫4. 应用运行scrapy爬虫5. 应用 scrapy定位以及提取数据或属性值的方法6. 掌握 response响应对象的常用属性安装 pip/pip3 install scrapy创建scrapy项目的命令： scrapy startproject 示例： scrapy st...

scrapy菜鸟开始之最简单的Forbidden by robots.txt报错，python中遇到的request问题

ztfloserboy的博客

09-14

239

scrapy爬虫初学在爬虫开始的起点上，然后就去爬人家的网站，然后爬着就出现了 Forbidden by robots.txt 翻译过来就是遵循robots 的协议，在spider 的时候你们可以去看看这个robots是什么。我就不详解了。那么解决来了找到scrapy项目中的settings.py,下面代码行是让他遵循robots协议，一般默认是true # Obey robots.txt rules ROBOTSTXT_OBEY = Ture 然后动手一改 False问题解决 # Obey r

在Prefetcher中取消robots.txt的限制

lycos的六度空间

05-06

1569

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫。

Scrapy学习笔记-解决Forbidden by robots.txt错误

肥叔菌的博客

04-23

9558

去setting中设置ROBOTSTXT_OBEY为false。 Scrapy默认遵守robots协议，所以针对某些网站，设置了robots.txt的规则，不允许爬取其中某些资源，则Scrapy就不会去爬取。通过去setting中设置ROBOTSTXT_OBEY为false：ROBOTSTXT_OBEY = False 即可不遵守协议，而去爬取对应页面内容了。 ...

爬虫限制（robots.txt）

weixin_64910075的博客

10-09

3464

需要注意的是，未经允许的爬虫行为可能违反网站的使用条款或法律法规。在进行网页爬取之前，建议先查看网站的Robots.txt文件以及相关的使用条款，并确保你的爬虫行为合法合规。

爬虫"msg":"forbidden by tfs"

03-08

#### 修改 Scrapy 配置以忽略 robots.txt 协议 Scrapy 默认情况下会遵循站点的 robots.txt 文件规定。如果希望绕过此限制，则可以在项目的 settings.py 中调整 ROBOTSTXT_OBEY 参数设置为 False[^2]： ```python ...