Scrapy
官网:Scrapy
安装
官方推荐在虚拟环境安装
We strongly recommend that you install Scrapy in a dedicated virtualenv, to avoid conflicting with your system packages.
安装virtualenv
,参考:python virtualenv简单使用
# 习惯用pip安装,conda用得少
bin/pip install scrapy
scrapy
可运行文件在pip同级目录
简单使用
创建项目
bin/scrapy startproject tutorial
后续操作根据提示以及配合官方文档来进行。
Scrapyd和scrapyd-client
安装
官网:Scrapyd doc
Github:scrapy/scrapyd-client
# 也是在虚拟环境安装
bin/pip install scrapyd
bin/pip install scrapyd-client
scrapyd
和scrapyd-deploy
可运行文件在pip同级目录
配置Scrapyd服务
-
配置文件存在多个位置: Configuration file
-
如果是在虚拟环境中安装的,通过
find -name scrapyd
查到scrapyd
文件夹的位置
(我python版本是3.6,位置:lib/python3.6/site-packages/scrapyd
),然后通过查看config.py
文件来查看配置的读取逻辑 -
通过复制
scrapyd/default_scrapyd.conf
模板来配置即可
运行Scrapyd服务
这里不修改配置,直接运行可运行文件scrapyd
bin/scrapyd
浏览器打开:http://localhost:6800/
部署项目到服务器
注意:scrapyd-deploy
在虚拟环境的bin下
Windows下安装scrapyd-client会在pip同级目录下有个
scrapyd-deploy
py文件,需要复制到自己的项目下(scrapy.cfg
同级目录),通过python scrapyd-deploy
运行
查看使用说明
bin/scrapyd-deploy -h
进入自己的爬虫项目根目录(有scrapy.cfg
文件那个)
修改scrapy.cfg
文件,去掉url的注释
查看target(服务器)
bin/scrapyd-deploy -l
部署
bin/scrapyd-deploy <target> -p <project>
# or
bin/scrapyd-deploy
运行spider
官方:API
curl http://localhost:6800/schedule.json -d project=tutorial -d spider=quotes
查看结果:http://localhost:6800/jobs
issues
Windows 需要c++ 14来安装Twisted
- 下载Twisted的whl
pip install *.whl