scrapyd部署分布式爬虫

最新推荐文章于 2025-05-11 16:18:44 发布

python搬运工

最新推荐文章于 2025-05-11 16:18:44 发布

阅读量837

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： scrapyd分布式

本文链接：https://blog.youkuaiyun.com/qq_41293711/article/details/82864900

python 专栏收录该内容

17 篇文章

订阅专栏

本文详述了使用Scrapyd部署Scrapy爬虫项目的全过程，包括安装配置、项目打包、远程调度等关键步骤，为爬虫开发者提供全面的实战指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.首先我们需要安装scrapyd这个模块，安装命令：pip install scaprd

2.然后启动scrapyd，通过浏览器打开127.0.0.1:6800 这个网址，有以下界面即可：

3.如果连接成功，那你可以关闭scrapyd了，在非C盘里面创建一个文件夹，名字叫做scrapydTest，然后进入该文件夹，shift+右键打开命令行工具，输入scrapyd执行，执行完成后会新建一个dbs空文件夹，用来存放爬虫项目的数据文件

4.安装scrapyd-client模块。scrapyd-client模块是专门打包scrapy爬虫项目到scrapyd服务中的，执行命令pip install scrapyd-client==1.1.0，安装完成后，在python环境的scripts中会出现scrapyd-deploy无后缀文件，这个scrapyd-deploy无后缀文件是启动文件，在Linux系统下可以运行，在windows下是不能运行的，所以我们需要编辑一下使其在windows可以运行

新建一个scrapyd-deploy.bat文件，右键选择编辑，输入以下配置，注意：两个路径之间是空格，一定要使用双引号。单引号的话会错误。

@echo off

"C:\Users\qianzhen\Envs\scrapySpider\Scripts\python.exe" "C:\Users\qianzhen\Envs\scrapySpider\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9

5.进入虚拟环境，进入到你的爬虫项目中，进入带有scrapy.cfg文件的目录，执行scrapyd-deploy，测试scrapyd-deploy是否可以运行，如果出现以下则正常，如果没有出现，请检查你的scrapyd-deploy.bat文件是否写对，要注意关闭windows的隐藏文件后缀名的功能。

6.打开爬虫项目中的scrapy.cfg文件，这个文件就是给scrapyd-deploy使用的将url这行代码解掉注释，并且给设置你的部署名称

7.执行scrapyd-deploy -l命令来启动服务，这个时候，如果你的配置没有问题，就会显示你的部署名称：

8. 开始打包前，执行一个命令：scrapy list ，这个命令执行成功说明可以打包了，如果没执行成功说明还有工作没完成注意执行 scrapy list 命令的时候很有可能出现错误，如果是python无法找到scrapy项目，需要在scrapy项目里的settings.py配置文件里设置成python可识别路径# 将当前项目的一级目录TotalSpider目录添加到python可以识别目录中BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))sys.path.insert(0, os.path.join(BASE_DIR, “TotalSpider”))