Scrapy入门到放弃07:scrapyd、gerapy,界面化启停爬虫

本文介绍如何利用Scrapyd和Gerapy实现Scrapy爬虫的远程管理和界面化操作,包括安装配置、项目部署及定时任务设置等内容。

前言

上一篇的枯燥无味,就用这一篇来填补一下。写到插件篇了,终于能写点有意思的东西了,接下来就Scrapy基本概念和插件篇来穿插着写一写。

在我们以往开发的爬虫中,不论是Java的Jsoup,还是Python的requests,启动方式和普通的应用程序没什么两样,都是通过命令来本机运行。

但Scrapy提供了远程启停爬虫的服务Scrapyd。Scrapyd基于http协议开放了API,以此来远程启停爬虫。

而第三方插件Gerapy作为一个分布式爬虫管理框架,基于Scrapyd又封装了一个web应用,在网页上就可以启停爬虫程序,监控程序日志。

Scrapyd

1.安装

命令两行,快速安装。

python install scrapyd
python install scrapyd-client

2. scrapyd配置

在python的site-packages/scrapyd安装目录下,有一个default-scrapyd.conf配置文件,里面是scrapyd的默认配置,我们可以修改一些默认配置。

scrapyd配置

这里主要还是修改IP和端口。

bind_address:默认是本地127.0.0.1,修改为0.0.0.0,可以让外网访问
http_port:服务端口,默认是6800

3.项目配置

在每个Scrapy项目下,都有一个scrapy.cfg,添加以下配置。

[deploy:video]
url = http://localhost:6800/
# 这个project名称你随便起
project = VideoSpider

其中要注意以下两点:

  1. video为deploy的别名,冒号之间千万不要有空格,别问,问就是加空格是我的编码风格

  2. url端口要与scprayd.conf中一致

4. 启动服务

在主机上新建一个目录,执行scrapyd,这里注意,一定要新建目录,因为目录中会生成一些数据文件。

如果是linux环境,记得要创建软链接。

ln -s /usr/local/python3.9/bin/
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值