前言
上一篇的枯燥无味,就用这一篇来填补一下。写到插件篇了,终于能写点有意思的东西了,接下来就Scrapy基本概念和插件篇来穿插着写一写。
在我们以往开发的爬虫中,不论是Java的Jsoup,还是Python的requests,启动方式和普通的应用程序没什么两样,都是通过命令来本机运行。
但Scrapy提供了远程启停爬虫的服务Scrapyd。Scrapyd基于http协议开放了API,以此来远程启停爬虫。
而第三方插件Gerapy作为一个分布式爬虫管理框架,基于Scrapyd又封装了一个web应用,在网页上就可以启停爬虫程序,监控程序日志。
Scrapyd
1.安装
命令两行,快速安装。
python install scrapyd
python install scrapyd-client
2. scrapyd配置
在python的site-packages/scrapyd安装目录下,有一个default-scrapyd.conf配置文件,里面是scrapyd的默认配置,我们可以修改一些默认配置。

这里主要还是修改IP和端口。
bind_address:默认是本地127.0.0.1,修改为0.0.0.0,可以让外网访问
http_port:服务端口,默认是6800
3.项目配置
在每个Scrapy项目下,都有一个scrapy.cfg,添加以下配置。
[deploy:video]
url = http://localhost:6800/
# 这个project名称你随便起
project = VideoSpider
其中要注意以下两点:
-
video为deploy的别名,冒号之间千万不要有空格,别问,问就是加空格是我的编码风格
-
url端口要与scprayd.conf中一致
4. 启动服务
在主机上新建一个目录,执行scrapyd,这里注意,一定要新建目录,因为目录中会生成一些数据文件。
如果是linux环境,记得要创建软链接。
ln -s /usr/local/python3.9/bin/

本文介绍如何利用Scrapyd和Gerapy实现Scrapy爬虫的远程管理和界面化操作,包括安装配置、项目部署及定时任务设置等内容。
最低0.47元/天 解锁文章
679

被折叠的 条评论
为什么被折叠?



