爬虫中遇到的问题Crawled (404)，[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to

最新推荐文章于 2023-11-28 15:59:27 发布

原创最新推荐文章于 2023-11-28 15:59:27 发布 · 4.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #报错 #scrapy

爬虫同时被 2 个专栏收录

21 篇文章

订阅专栏

问题解决

20 篇文章

订阅专栏

在使用Scrapy爬虫时，可能会遇到404错误，这通常是因为URL地址有误。解决方法是检查并确保使用正确的完全URL地址。另外，还会遇到'Filtered offsite request to'的报错，意味着请求被离站中间件过滤，可能需要调整Scrapy的配置来允许目标站点的请求。

部署运行你感兴趣的模型镜像

1.错误1：url地址有误

Crawled (200) <GET http://www.itcast.cn/robots.txt> (referer: None)
DEBUG: Crawled (404) <GET http://www.itcast.cn/channel/teacher.shtml/> (referer: None)

解决：复制url的完全地址

start_urls = ['http://www.itcast.cn/channel/teacher.shtml/']  # 刚开始的url
start_urls = ['http://www.itcast.cn/channel/teacher.shtml#ajavaee']  # 改了之后的url

2.错误2：[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to

解决：`dont_filter=True`

yield scrapy.Request(
    item["s_href"],
    callback=self.parse_book_list,
    meta={"item": deepcopy(item)},
    dont_filter=True
)

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaobai_IT_learn

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

JSoup 爬虫遇到的 404 错误解决方案

Z_suger7的博客

12-28

1560

假设我们希望使用JSoup来爬取腾讯新闻的数据，但在实际操作中，我们却遇到404错误。这可能是因为腾讯新闻网站采取了一些反爬虫措施，例如检测请求头中的用户- Agent信息或者Referer信息，以识别爬虫行为并拒绝请求并返回404错误信息。在网络爬虫开发中，使用JSoup进行数据抓取是一种常见的方式。然而，当我们尝试使用JSoup来爬虫抓取腾讯新闻网站时，可能会遇到404错误。这种情况可能是由于网站的反面爬虫机制检测到了我们的爬虫行为，从而拒绝了我们的请求。

昨天一个同事代码中报错[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to

liuqingup的专栏

06-29

594

昨天我遇到了一个有趣的问题，一个同事的代码中出现了一个报错，报错信息为：[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to...

参与评论您还未登录，请先登录后发表或查看评论

【爬虫】scrapy下载图片问题

lyz19921004的博客

06-12

2154

爬虫 404 try_爬虫1-Requests

weixin_39754398的博客

11-26

326

本文源于嵩天老师的爬虫课程。网页是个API。使用python中requests库可以自动爬取html页面，进行提交和请求。2 reques库的安装。我本人在更新win10 2004版本时发生错误，不得已重装了系统，重装后删除了原来所有python相关内容，在python官网下载了IDLE，在清华镜像下载了最新版的anaconda，因为anaconda自带requests库，所有没有安装。使用IDL...

爬虫 404 try_无所不能的Python之爬虫那点事儿

weixin_39927378的博客

11-20

375

今天给大家介绍一个有趣的新技术——爬虫。首先来讲一下啥是爬虫。爬虫也叫网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通俗的来讲，爬虫就是一段程序，它来根据你的设定自己去互联网上浏览网页并把这些信息下载下来，然后在从中提取出有用的信息。这些信息可以用在做数据分析、数据统计等等。接下来我会用通俗的语言来讲解爬虫技术，这些都是基于我个人的理解所写的，水平有限，若有不对的...

最新发布

07-09

我们正在分析Scrapy爬虫的日志输出，特别是Scrapy 2.13.3版本的日志。日志分析是爬虫调试和性能优化的重要环节。以下将详细解析Scrapy日志的各个部分，并说明如何从中获取爬虫运行的关键信息。 ### 1. Scrapy日志...

06-07

request(request,spider)```在`settings.py`中替换默认中间件：```pythonSPIDER_MIDDLEWARES={'autohome.middlewares.CustomOffsiteMiddleware':500,'scrapy.spidermiddlewares.offsite.OffsiteMiddleware':None,#...

06-09

request,response,spider):ifresponse.statusin[301,302,307]:spider.logger.debug(f"Redirectedfrom{request.url}to{response.headers['Location']}")```###四、针对汽车之家爬虫的优化建议根据之前对汽车之家网站...

07-04

从你提供的日志输出来看，你的 Scrapy 爬虫已经成功运行，并访问了多个页面，但提取的数据为空（`{'title': 'No title', 'content': [], ...}`），这说明： --- ## 问题定位 ### ✅ 已知情况： - 页面请求成功...

爬虫爬取数据时，网页响应码返回404问题的解决方法

hacker_NO_007的博客

04-27

9616

爬虫报404问题：在进行爬虫爬取数据的过程中，使用语句： r = requests.get(url, timeout=60, headers=headers, stream=True) # print(r.status_code) open(r'D:\us\{}\{}\{}\img\{}.jpg'.format(year, mouth_day, id, l), 'wb').write(r.content) # 将内容写入图片获取网页数据，爬取数据，打印网页响应码，返回404问题解决方案：经

python爬虫

weixin_30613433的博客

06-14

322

爬虫介绍爬虫定义爬虫基本流程爬虫介绍爬虫定义爬虫是请求网站并提取自己所需要数据的过程。通过我们的程序，可以代替我们向服务器发送请求，然后进行批量的数据下载。爬虫基本流程发起请求通过url向服务器发送requests请求，请求可以包含额外的header信息。2.获取响应内容如果服务器正常响应，那么将受到一个response，response即为我们所请求的网页内容，可能包含html\js...

爬取网页时，报错出现404或者418问题

喜欢分享工作中遇到的Bug和技术

06-15

4766

出现该错误其实就是，该网页发现这是一个爬虫程序被识别出来，阻止爬取数据。解决方法：1）：添加headers代码段。如果仍然出现错误，可能是访问次数太多而被网页识别，需要在网页中找到 Cookie 属性并添加到 headers中添加之后应该就可以正常运行了。...

Python爬虫404错误：解决方案总结

Z_suger7的博客

11-28

3638

在进行网络爬虫开发的过程中，经常会遇到HTTP 404错误，即“Not Found”错误。这种错误通常表示所请求的资源不存在。对于爬虫开发者来说，处理这类错误是至关重要的，因为它们可能会导致爬虫无法正常工作。本文将探讨Python爬虫遇到404错误的解决方案，以及请求头在此过程中的重要性。

python调用接口404_python 爬虫报 404

weixin_39564368的博客

12-05

1100

019-01-05 15:50:16 [csrc][scrapy.extensions.logstats] INFO: Crawled 167 pages (at 10 pages/min), scraped 0 items (at 0 items/min)2019-01-05 15:50:19 [csrc][scrapy.core.engine] DEBUG: Crawled (404) (r...

python 404_python 爬虫报 404

weixin_39898248的博客

12-09

787

Scrapy---settings 文件中的配置

Fuly的博客

04-30

691

上周爬了大神的文章列表这周爬取失败了会报这么一个错: DEBUG: Crawled (200) <GET https://blog.csdn.net/robots.txt> (referer: None) 这个时候将 settings.py中的 ROBOTSTXT_OBEY = True 改为 ROBOTSTXT_OBEY = False 百度了一下: robots.txt是一...

Scrapy 提示错误 DEBUG: Crawled (403) ＜GET https://book.douban.com/top250＞ (referer: None)

weixin_72711583的博客

01-19

2460

运行scrapy有红色提示