scrapyd部署爬虫项目
1,安装scrapy包 pip install scrapyd
在终端输入scrapyd 查看是否成功 所在端口为6800即为成功(建议不要将这个关掉,后面需要这个服务,关掉会连接不到主机)
在浏览器上输入127.0.0.1::6800 查看
点击jobs即为爬虫内容
当有爬虫文件执行时,jobs会显示爬虫的动态
2,在1非c盘下创建一个文件夹例如spiderTest,进入该文件夹shitf加鼠标右键,打开命令行工具,输入scrapyd执行
执行完之后会发现里面多一个dbs文件夹,是用来存放爬虫项目的数据文件
3,安装scrapyd-client 推荐安装1.1.0版本,安装完之后,在Python文件夹(该文件夹的位置就是安装Python的位置)中会出现
scrapyd-deploy无后缀文件,此文件无法执行,需要新建一个scapyd-deploy.bat文件并在里面添加内容,如下
上面的路径为安装的Python路径 必须修改为自己的路径,其他不变
4,进入到你的爬虫项目中,进入带有scrapy.cfg文件的目录,打开命令行 输入scrapyd-deploy
出现如下效果即为正常
5,修改scrapy.cfg文件内容
打开该文件,设置部署名称,并将url这行代码解注释
,5,执行scrapy-deploy - l 可以看到设置的名称,与上图对应
6,在打包开始前 输入scrapyd list 执行结果为爬虫文件名 如果这个命令成功了 说明可以成工打包
注意执行该命令有可能出现错误,如果Python无法找到scrapy项目,需要在scrapy项目里的 settings配置文件里设置成Python可识别路径
# 将当前项目的一级目录TotalSpider目录添加到python可以识别目录中
BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))
sys.path.insert(0, os.path.join(BASE_DIR, “TotalSpider(项目名称)”))
如果错误提示,什么远程计算机拒绝,说明你的scrapy项目有链接远程计算机,如链接数据库或者elasticsearch(搜索引擎)之类的,需要先将链接服务器启动
执行 scrapy list 命令返回了爬虫名称说明一切ok了,如下图
7,到此为止我们可以开始打包scrapy项目到scrapyd
执行打包命令: scrapyd-deploy 部署名称 -p 项目名称
如:scrapyd-deploy wj(scrapy.cfg中设置的名字) -p TotalSpider(同理)
如下显示表示scrapy项目打包成功
执行
curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称
执行后,如果出现下图则表示成功
此时 去网页查看状态127.0.0.1:6800
框内为正在爬虫的代码,下面是已经结束的爬虫
以上即是scrapyd爬虫部署配置!