scrapy+splash:设置超时失败，仍然504

最新推荐文章于 2023-05-23 16:08:35 发布

原创最新推荐文章于 2023-05-23 16:08:35 发布 · 840 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#docker #scrapy #splash

爬虫专栏收录该内容

7 篇文章

订阅专栏

本文介绍了如何通过Scrapy-Splash在Docker环境下爬取网页时处理超时的问题。在尝试用'docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600'启动服务但设置未生效后，解决方案是通过在Scrapy请求中指定'SplashRequest'，并设定'endpoint'为'execute'，同时在参数中设置'lua_source'和'timeout'为3600，从而确保脚本执行的超时时间。

我使用scrapy-splash来爬行网页，并在docker上运行splash服务。

命令是：

docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600

但是设置并没有生效。

解决方法是：

yield scrapy_splash.SplashRequest(
    url, self.parse, endpoint='execute',
    args={'lua_source': script, 'timeout': 3600})

参考

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lcqin111

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

讨论scrapy-splash渲染不成功问题？

sxtopc的博客

02-15

3352

url = https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=75461a02d9714cec9322ab4500147439 由于scrapy爬虫框架可以对页面进行动态js渲染，其中有两种工具：splash & selenium。 selenium通过webdriver模拟对页面的...

scrapy中使用Splash

s_daqing的博客

05-19

815

scrapy爬虫框架没有提供页面js渲染服务，所以我们获取不到信息，我们可以使用selenium或者scrapy-splash， Selenium极大地方便了动态页面的数据提取，但是它需要操作浏览器，无法实现异步和大规模页面的爬取需求。 Splash就可以解决上述问题 1、Splash渲染引擎简介： Splash是为Scrapy爬虫框架提供渲染javascript代码的引擎，它有如下功能：（摘自维基百科）（1）为用户返回渲染好的html页面（2）并发渲染多个页面（3）关闭图片加载，加速渲染（4）执行

参与评论您还未登录，请先登录后发表或查看评论

scrapy splash 504错误解决以及若干建议

笑笑布丁的博客

07-02

3492

原因：使用splash经常出现504 get-away错误，很头疼，查了一圈，在官方文档那里的到若干建议或者说解决注意方法。 splash 504原因官方解释： HTTP 504错误意味着对Splash的请求花费超过超时秒数（默认为30秒） - Splash在超时后中止脚本执行。要覆盖超时值，请将’timeout’参数传递给您正在使用的Splash端点。请注意，允许的最大超时值受最大超时设置...

scrapy 如何使用代理以及设置超时时间

有什么问题回复不及时，可以私聊我。也可以加我的星球：知识爬行者

11-17

1820

使用代理 1. 单文件spider局部使用代理 entry = 'http://xxxxx:xxxxx@http-pro.abuyun.com:xxx'.format("帐号", "密码","端口号") # entry = 'http://{}'.format("api获取的ip代理") # 传参meta迭代下一个方法 for url in self.starturl: yield sc...

Splash bad 504 的问题解决办法

weixin_43800071的博客

02-10

1287

关于Splash bad 504 的问题今天我使用了Splash抓取淘宝数据的时候发现Splash请求状态504了；百思不得其解，于是在百度搜了，答案很少。翻墙去goole，问题也解决不了。最终我的解决办法：把Dock的VBox服务全部关了，重启。就搞定了。。。。注意：有些人是wait 的时间过低，设置2到5秒即可，window系统下可能要重启电脑 ...

How to set splash timeout in scrapy-splash?

liukuan73的专栏

11-07

2632

https://stackoverflow.com/questions/44627694/how-to-set-splash-timeout-in-scrapy-splash I use scrapy-splash package and set the timeout in args parameter of SplashRequest like this: yield

scrapy+selenium之中国裁判文书网文书爬取

sxtopc的博客

02-19

5878

浅尝python网络爬虫，略有心得。有不足之处，请多指正 url =https://wenshu.court.gov.cn/ 爬取内容：裁判文书爬取框架：scrapy框架 + selenium模拟浏览器访问开始想暴力分析网页结构获取数据，哈哈哈哈哈，天真了。看来自己什么水平还真不知道。之后锁定pyspider框架，搞了四五天。该框架对于页面超链接的连续访问问题，可以手动点击单...

掌握Scrapy与Splash框架的官方文档解析

在集成使用Scrapy和Splash时，需要考虑到网络请求的错误处理，包括请求超时、Splash服务器错误等。 ### 实现步骤 1. **安装和启动Splash**：使用Docker或直接从源码安装Splash服务，并在本地或者远程服务器上...

scrapy-splash用法

最新发布

04-30

### Scrapy-Splash 的使用方法 Scrapy-Splash 是一个用于解决 Scrapy 无法解析由 JavaScript 动态加载的网页内容的问题的工具。通过集成 Splash 渲染服务，可以获取到经过 JavaScript 渲染后的页面源码。 #### ...

python selenium爬虫豆瓣_Scrapy+Selenium爬取豆瓣电影评论

weixin_39604350的博客

12-20

1417

首先需要对目标网站进行分析，具体的分析这里不详细介绍。目标网站；豆瓣某个电影评论页面 https://movie.douban.com/subject/1292052/reviews，这个电影是肖申克的救赎。网页没有使用什么特殊的加载方式，所有的评论数据都在当前的源码中。翻页：https://movie.douban.com/subject/1292052/reviews?start=0https...

scrapy 中使用 splash

木下瞳的博客

05-10

459

目录参数，属性在 setting.py 中配置在 scrapy 中使用例子参数，属性 from scrapy_splash import SplashRequest SplashRequest构造器方法中的一些常用参数。 url 与scrapy.Request中的url相同，也就是待爬取页面的url。 headers 与scrapy.Reques...

python爬虫常见状态码之504错误

Z_suger7的博客

05-23

1423

在网站封IP的情况下返回504最好的解决办法就是添加代理IP，代理的选择需要看目标网站对IP的要求严不严，像一些大型新闻，电商，社交网站对IP的风控都很严，就需要通过使用优质代理IP才能帮助爬虫程序完成任务。python爬虫请求网站然后抓取数据返回的过程之中，实际上是通过http超文本传输协议将自己的请求信息发送到了网站上等待响应，而网站响应之后就会返回状态码以及相关的数据回去。我们需要快速地对http请求返回的各种异常状态码来判断处理，以便于我们及时调整爬虫策略，优化思路，及时完成爬虫任务。

Python3爬虫中Splash的知识总结

菜鸟教程

12-10

3546

Scrapy Splash

罗小爬的技术宝书

03-21

1745

参考： https://splash.readthedocs.io/en/stable/ https://github.com/scrapinghub/splash Splash是一个Javascript渲染服务（a javascript rendering service）， 1、可以很方便的通过Docker镜像启动， 2、提供丰富Http Api接口（可替代Lua脚本的编写）， 3、基于Python3中Twisted和QT5实现，提供全异步（fully asynchronous）的渲染服务，且充分利用

Python爬虫：scrapy-splash的请求头和代理参数设置

彭世瑜的博客

08-28

1万+

lua中设置代理和请求头： function main(splash, args) -- 设置代理 splash:on_request(function(request) request:set_proxy{ host = &amp;amp;quot;27.0.0.1&amp;amp;quot;, port = 8000, ...

504 Gateway Time-out错误的解决方法