Scrapyd安装与使用指南

最新推荐文章于 2024-09-13 22:18:54 发布

何柳新Dalton

最新推荐文章于 2024-09-13 22:18:54 发布

阅读量411

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00170/article/details/141076598

Scrapyd安装与使用指南

scrapydA service daemon to run Scrapy spiders项目地址:https://gitcode.com/gh_mirrors/sc/scrapyd

目录结构及介绍

在成功克隆或下载了Scrapyd项目之后,其目录结构大致如下：

.
├── scrapy.cfg          # 主要用于定义默认使用的Scrapy版本以及其他配置
├── scrapyd             # 包含Scrapyd核心代码和服务的Python包
│   ├── __init__.py    
│   └── ...             # 其他相关Python模块和子目录
└── setup.py            # 定义项目的元数据和依赖项,用于pip安装等操作

scrapy.cfg 是一个全局配置文件，主要用于Scrapy和Scrapyd服务的相关设置。
scrapyd/ 目录包含了Scrapyd的所有源代码及其相关组件。其中包含多个.py文件以及可能存在的子目录。
- init.py: 这是使 scrapyd 成为 Python 包的文件。
setup.py 文件则用来描述项目的元数据，比如作者信息，项目依赖关系等。这是项目打包和发布时非常重要的部分。

启动文件介绍

Scrapyd可以通过命令行来启动服务。主要通过以下命令来进行:

$ scrapyd

该命令将启动Scrapyd服务，默认监听在本地主机的6800端口上。如果需要修改服务的运行参数如监听地址或端口号，则需进一步查看Scrapyd 配置相关内容。

配置文件介绍

Scrapyd 的配置可以分为两大部分：

全局配置（位于 scrapy.cfg 中）
Scrapyd配置（可在其运行时动态指定）

全局配置

scrapy.cfg 文件包含了Scrapy框架的一些基本配置，如默认使用的Scrapy版本。对于Scrapyd而言，这里可以设定一些默认值，这些配置会被Scrapyd读取并应用到启动时的服务设置中。

Scrapyd配置

Scrapyd本身也接受一些配置选项，在启动Scrapyd的时候可以通过命令行参数进行传递或者在部署环境中的配置文件里设定。

常见的配置选项包括：

http_port: 指定Scrapyd HTTP API的监听端口。例如，如果你想在不同的端口监听，你可以这么配置：
```
http_port = 6801
```
eggs_dir: eggs(项目打包形式)文件存储的位置，默认是 /tmp/scrapyd/eggs 。你可以自定义这个路径以适应你的实际应用场景。
projects_dir: 存储所有Scrapy项目的根目录，默认是 /tmp/scrapyd/projects 。

完整的配置列表以及更多细节可以在官方文档中找到：Scrapyd文档链接

为了方便管理配置，推荐创建一个独立的配置文件，然后在启动Scrapyd时通过 -c 参数指定此配置文件。