Scrapy入门到放弃07：scrapyd、gerapy，界面化启停爬虫

最新推荐文章于 2025-07-15 22:00:00 发布

原创

最新推荐文章于 2025-07-15 22:00:00 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍如何利用Scrapyd和Gerapy实现Scrapy爬虫的远程管理和界面化操作，包括安装配置、项目部署及定时任务设置等内容。

上一篇的枯燥无味，就用这一篇来填补一下。写到插件篇了，终于能写点有意思的东西了，接下来就Scrapy基本概念和插件篇来穿插着写一写。

在我们以往开发的爬虫中，不论是Java的Jsoup，还是Python的requests，启动方式和普通的应用程序没什么两样，都是通过命令来本机运行。

但Scrapy提供了远程启停爬虫的服务Scrapyd。Scrapyd基于http协议开放了API，以此来远程启停爬虫。

而第三方插件Gerapy作为一个分布式爬虫管理框架，基于Scrapyd又封装了一个web应用，在网页上就可以启停爬虫程序，监控程序日志。

命令两行，快速安装。

python install scrapyd
python install scrapyd-client

在python的site-packages/scrapyd安装目录下，有一个default-scrapyd.conf配置文件，里面是scrapyd的默认配置，我们可以修改一些默认配置。

scrapyd配置

这里主要还是修改IP和端口。

bind_address：默认是本地127.0.0.1，修改为0.0.0.0，可以让外网访问
http_port：服务端口，默认是6800

在每个Scrapy项目下，都有一个scrapy.cfg，添加以下配置。

[deploy:video]
url = http://localhost:6800/
# 这个project名称你随便起
project = VideoSpider

其中要注意以下两点：

在主机上新建一个目录，执行scrapyd，这里注意，一定要新建目录，因为目录中会生成一些数据文件。

如果是linux环境，记得要创建软链接。

ln -s /usr/local/python3.9/bin/