scrapy常用设置和注意点！！！！

Scrapy爬虫高级配置详解

最新推荐文章于 2022-06-03 14:26:59 发布

weixin_30832405

最新推荐文章于 2022-06-03 14:26:59 发布

阅读量149

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/firebirdweb/p/11287386.html

本文详细介绍了Scrapy爬虫中的高级配置选项，包括如何设置HTTP错误代码允许列表、响应URL的使用、页面跳转限制及重试机制，以及中间件中异常处理的最佳实践。这些设置对于优化爬虫性能、提高数据抓取成功率至关重要。

setting里的设置

HTTPERROR_ALLOWED_CODES = [405] //这一条是忽略405错误退出进程，有可能跳到405页面，在parse注意判断，重新请求页面

爬虫里的设置

response.url //这一条在parse里是返回上一个请求链接

meta = {'dont_redirect': True} //这个是限定页面不能跳转

dont_filter = True //这个是不过滤页面重新爬取，这个在页面取不到数据里，要重新爬取时很有用

中间件里的设置

process_exception //这个方法里最好不要返回request 这样会停止进程的，最好在这里换IP然后什么也不要返回即可

转载于:https://www.cnblogs.com/firebirdweb/p/11287386.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30832405

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

项目配置之道：优化Scrapy参数提升爬虫效率

Z_suger7的博客

03-22

1420

Scrapy是一个基于Python的强大的网络爬虫框架，旨在简化数据提取的过程并提供高效的机制。凭借其可扩展性和灵活性，Scrapy被广泛应用于数据挖掘、信息收集和业务分析等领域。其核心组件包括Spider（爬虫）、Item（数据结构）、Selector（选择器）等，为开发者提供了丰富的工具来定制和执行数据爬取任务。通过合适的项目配置，我们可以定制化Scrapy的行为，提高爬虫的效率，避免被封禁，确保数据采集的高效稳定。

scrapy爬虫解析起始页网页链接后request请求不能正常跳转到下一级爬虫类的解析方法中

gofreshman的博客

04-17

830

爬虫启动后，bash显示如下信息： 2020-04-07 18:38:17 [scrapy.core.engine] INFO: Spider opened 2020-04-07 18:38:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 it...

参与评论您还未登录，请先登录后发表或查看评论

Scrapy的一些注意事项

weixin_43533058的博客

06-01

335

Scrapy的一些注意事项 1、response 是一个’scrapy.http.response.html.HtmlResponse’对象。可以执行’xpath’和’css’语法来提取数据。 2、提取出来的数据，是一个’Selector’或者’SelectorList’对象。如果想要获取其中的字符串，那么应该执行’getall’或者’get’方法。 3、getall方法：获取’Selector’中的所有文本。返回的是一个列表。 4、get方法：获取的是’Selector’的第一个文本。返回的是一个str类

在Scrapy里设置Cookies 要注意一点！

weixin_30325793的博客

04-17

561

1.requests里设置cookies,可以将cookies放入headers里一同提交。 {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate', 'Accept...

Scrapy设置之深入

04-11

1848

Scrapy使用一些后辍为_BASE的设置项来存储框架扩展的默认值（比如FEED_EXPORTERS_BASE），可以在settings.py文件或者命令行用不加_BASE后辍的设置项来设置它们（比如FEED_EXPORTERS）。Scrapy用DOWNLOADER或者SCHEDULER设置项设置了这些系统必要的组件的类或包的名字。可以从默认的下载器(scrapy.core.downloader.D

Scrapy各种反反爬机制你都知道吗？

weixin_54667422的博客

06-03

2704

目录🍉内容介绍 🌵Scrapy如何设置请求头？ 🌵Scrapy获取数据过快被封ip该如何处理？ 🌵Scrapy如何动态获取数据你知道吗？ 🌵Scrapy程序出现Bug给你发邮件想学习吗？🌴Scrapy请求头设置🌴Scrapy设置时间间隔🌴Scrapy动态获取数据🌴Scrapy发邮件🍉结束芜湖起飞~ 学过爬虫的和没学过爬虫的都应该听说过请求头。请求头它是访问一个网站时，发送请求时所携带的一种用户标识，哈哈，明白这些就行了，那用Scrapy框架时该如何把固定的请求......

Scrapy在PyCharm里面运行，调试

difvbspvkkcj96612的博客

04-05

131

首先通过csrapy shell命令创建一个scrapy项目。 scrapy startproject projectname 会生成如下文件进入spider_405文件夹我们自己写的爬虫项目就放在spiders文件夹里面 items.py是用来保存你爬取的数据的数据结构在scrapy.cfg同目录下新...

python爬虫获取真实url_python网络爬虫，当我抓取一个URL时，status_code显示405

weixin_39970668的博客

12-22

1630

最近，我正在学习python。当我使用BeautifulSoup并请求获取html时，我的状态是405。另外，汤是错误的。我访问了URL。python网络爬虫，当我抓取一个URL时，status_code显示405这里是我的代码：def craw(url):user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:55.0) Gecko/201001...

Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed

明日韭菜

11-06

1万+

scrapy爬取豆瓣电影top25，采用了selector的xpath和css

HTTP错误获取URL。java爬虫状态= 405 解决方法

不知有鱼的博客

10-23

4296

java爬虫常会遇到状态405错误，因为大多数wed服务器不允许静态文件响应post请求，只需要把post 改为get就可以运行.下面图片为更改后的结果

爬虫爬虫405 Not Allowed Request Payload

风华浪浪的博客

02-22

7827

只需要换个参数就行了，post_data， headers， url *现在比较忙抽空再写个解释吧 import requests import json class InfoTec(object): def __init__(self): self.headers = { 'authority': 'api.*****************...

Python爬虫系列之----Scrapy(四)一个简单的示例

fendo

04-15

8156

111111

http 返回码 405 解决方案之一

n_fly的博客

01-15

1242

原创:https://blog.youkuaiyun.com/hgffhh/article/details/83821357 今天做网络请求数据的时候遇到返回码405,当时就傻了~~ 故事是这样的--我用post请求访问一个url,服务端数据是一个json的txt文件,理论上直接访问,返回json,然后解析就没事了,可是今天很无语.居然给我返回405... 问了很多人,他们给我提供...

Scrapy 的 Spider 的编写

李威威的博客

09-09

1053

当然，我们也可以自己写 .py 文件，不过，下面我们要介绍使用 Scrapy 的模板来生成爬虫文件的方法。在 iTerm2 中输入：scrapy genspider iqianyue http://iqianyue.com/从上图中，我们可以看到，默认，使用模板 “basic” 创建了 spider “iqianyue”，程序在 spiders 文件夹下就生成了模板文件：# -*- coding:

scrapy框架下设置代理ip

xutengfei999的博客

10-28

1740

问题：在使用框架进行爬取的时候报了405错误解决方法：使用芝麻代理ip在框架中进行设置 1.先在芝麻代理ip中进行注册 2.联系客服会给你充值让进行测试 3.点击生成api 4.在自己爬虫的middleware中加入代理类 5.在settings文件中进行配置，在DOWNLOADER_MIDDLEWARES中加入自己写的代理 6.运行自己爬虫，问题解决 ...

Scrapy: 爬虫返回403错误