scrapyd部署scrapy爬虫

最新推荐文章于 2024-01-11 12:51:22 发布

原创最新推荐文章于 2024-01-11 12:51:22 发布 · 251 阅读

1 ·

CC 4.0 BY-SA版权

如转载请指明出处！

文章标签：

#scrapyd #scrapy

Scrapy 专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了如何使用Scrapyd部署Scrapy爬虫项目，包括所需安装包、Windows下部署步骤、配置文件修改、爬虫文件上传、运行及取消爬虫等关键操作。

scrapyd是部署scrapy爬虫的服务器
1、部署需要的安装包
pip install scrapyd 这个是服务器
pip install scrapyd-client 这个是部署客户端

2、在windowns下部署
   scrapyd安装好后在服务器端测试
   C:\Users\hi>scrapyd 正常运行就说明安装成功了。可以浏览器访问：http://127.0.0.1:6800/
   会在目录下生成两个文件：dbs和eggs3、上面的服务器不能关闭，重启一个cmd
   在scrapy项目目录下，有一个scrapy.cfg的配置文件：

[settings]
default = Scra_Picture.settings

[deploy:demo]
url = http://localhost:6800/
project = Scra_Picture

demo:部署的名称
project：项目名称输入scrapyd-deploy 没有响应：需要在安装python的scripts目录下有个scrapyd-deploy没有后缀名，在目录下新建相同文件后缀为.bat并打开配置内容：

@echo off

"C:\Python36\python.exe" "C:\Python36\Scripts\scrapyd-deploy" %* （路径每个人不同）

现在就可以上传爬虫文件了，这里需要cd到项目的根目录（也就是有scrapy.cfg的目录）输入scrapyd-deploy 部署名 -p项目名 scrapyd-deploy demo -p Scra_Picture
出现下面就打包成功了：
Packing version 1576161900
Deploying to project "Scra_Picture" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "DESKTOP-76U6UJS", "status": "ok", "project": "Scra_Picture", "version": "1576161900", "spiders": 1}

4、开始运行：curl http://localhost:6800/schedule.json -d project=Scra_Picture -d spider=PIC
   project=Scra_Picture 项目名
   spider=PIC spider文件下的爬虫名
成功就出现下面的：
{"node_name": "DESKTOP-76U6UJS", "status": "ok", "jobid": "c18c08741cee11ea9be4e094676e786d"}
5.取消爬虫：curl http://localhost:6800/cancel.json -d project=Scra_Picture -d job=c18c08741cee11ea9be4e094676e786d
   project=Scra_Picture 项目名
   job=c18c08741cee11ea9be4e094676e786d 部署运行时会生成一个jobid
   每次运行爬虫都会生成一个jobid
   取消后可以再次调用第四步的命令将再次运行