我使用scrapy-splash来爬行网页,并在docker上运行splash服务。
命令是:
docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600
但是设置并没有生效。
解决方法是:
yield scrapy_splash.SplashRequest(
url, self.parse, endpoint='execute',
args={'lua_source': script, 'timeout': 3600})
本文介绍了如何通过Scrapy-Splash在Docker环境下爬取网页时处理超时的问题。在尝试用'docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600'启动服务但设置未生效后,解决方案是通过在Scrapy请求中指定'SplashRequest',并设定'endpoint'为'execute',同时在参数中设置'lua_source'和'timeout'为3600,从而确保脚本执行的超时时间。

被折叠的 条评论
为什么被折叠?



