-
爬虫启动时项目中的所有python脚本都会执行,因此不需要执行的代码要放在函数或类里。
-
scrapyd-deploy安装完成后执行显示不存在:
scrapyd-deploy在python的script目录下,需要新建scrapyd-deploy.bat并写入@echo off
python scrapyd-deploy路径 %* -
scrapyd部署错误:
安装twisted==18.9 -
cookie:
COOKIES_ENABLED=True时requests中的cookies参数生效,爬虫中断cookie丢失;=false时headers中的Cookie生效。 -
使用ss代理:
开启ss软件,代理127.0.0.1的1080端口,http和https都填这个端口 -
要处理404请求,可以在spider中加上
handle_httpstatus_list=[404] -
CLOSESPIDER_TIMEOUT时间到达后,程序不会等回调函数中的Request发送到redis后再停止,因此需要在爬虫中不断回调的请求不能设CLOSESPIDER_TIMEOUT
scrapy常见问题和技巧
爬虫技巧与常见问题解决
最新推荐文章于 2024-04-06 06:50:53 发布
本文分享了爬虫项目的启动技巧,如何避免不必要的代码执行,解决了scrapyd-deploy安装及部署错误,探讨了cookies、代理设置、404请求处理及CLOSESPIDER_TIMEOUT配置等问题。
3万+

被折叠的 条评论
为什么被折叠?



