手动部署scrapy爬虫项目到Scrapyd服务

本文介绍如何手动将Scrapy爬虫项目部署到Scrapyd服务上,并推荐使用虚拟环境以避免包冲突。通过scrapyd-client工具进行项目打包,详细步骤包括配置文件编辑及部署命令的使用。

    部署scrapy项目到scrapyd服务上可以使用gerapy,很方便,而手动部署scrapy爬虫项目虽然相对要繁琐一些,但会让我们知道gerapy每一步是做了什么。

  1. 建议使用虚拟环境,原因在于(1)可以在系统的Python解释器中避免包的混乱和版本的冲突(2)保持全局解释器的干净整洁,使其只作为创建更多虚拟环境的源。(3)不需要管理员权限
  2. 启动scrapyd服务,就会在当前工作目录下保存所部署的项目以及数据,为了管理方便,一般自己创建一个文件夹。
  3. 使用scrapyd-client来打包项目,装完这个包会在python环境下的script中会出现一个scrapyd-deploy无后缀的文件(是在linux系统中打开的),新建一个同名文件,把它加上 .bat 后缀(此时该文件是空的)
  4. 然后编辑上面新建的scrapyd-deploy.bat文件,添加python环境的路径和这个文件的路径,要使用双引号  (添加以下代码)  
    @echo off
    "C:\Envs\scrapySpider\Scripts\python.exe"
    "C:\Envs\scrapySpider\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
  5. 在爬虫项目有scrapy.cfg的文件夹中打开命令窗口,输入scrapyd-deploy测试是否可用
  6. 编辑爬虫项目的cfg文件,解除url的注释并设置部署名称
  7. 执行scrapyd-deploy-l 命令可以查看设置的名称
  8. 打包之前执行scrapy list,执行成功就可以执行打包命令: scrapyd-deploy 部署名称 -p 项目名称

    如果没有出现异常,那么一个爬虫项目就已经部署到了scrapyd服务上

将Django项目中的Scrapy爬虫部署Scrapyd(一个异步爬虫调度服务)通常涉及以下几个步骤: 1. **安装Scrapyd**: - 首先,在您的虚拟机上安装Scrapyd,可以使用包管理器如apt-get(Ubuntu/Debian)或pip(Python环境)进行安装。 ```bash sudo apt-get install scrapyd (对于Ubuntu/Debian) pip install scrapyd (对于Python环境) ``` 2. **配置Scrapyd**: - 创建Scrapyd的配置文件`scrapyd.conf`,并设置必要的信息,比如监听端口、存储位置等。 ```ini [settings] default = your_scraper_project_name.spider_settings [deployments] your_scraper_project_name = command: scrapy crawl your_spider_name -o items.json settings: your_scraper_project_name/spiders/your_spider_name.py spider: your_spider_name project: your_scraper_project_name ``` 这里假设`your_scraper_project_name`是Scrapy项目的名称,`your_spider_name`是你想要部署爬虫名字。 3. **创建Scrapy项目和spider**: - 在Django项目的子目录下创建一个新的Scrapy项目,并编写相应的Spider。 4. **将Django和Scrapy项目整合**: - 考虑使用`middlewares`来共享数据结构或设置,如果你需要在两者之间传递数据。 5. **将Scrapy项目打包**: - 使用`python setup.py sdist`命令生成Scrapy项目的源码分布文件(`.tar.gz`格式)。 6. **部署Scrapy项目Scrapyd**: - 将打包后的文件上传到Scrapyd服务器的`deploy`目录。 ```bash scp your_scraper_project_name-0.1.tar.gz user@your_vm_ip:/path/to/scrapyd/deploy/ ``` 然后通过SSH登录虚拟机,启动Scrapyd服务部署项目。 ```bash ssh user@your_vm_ip cd /path/to/scrapyd/ scrapyd-deploy your_scraper_project_name-0.1.tar.gz ``` 7. **监控和测试**: - 在Scrapyd Web界面检查爬虫的状态,查看日志,确认是否成功运行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值