Scrapy推荐安装步骤
1. 升级pip
指令:python -m pip install --upgrade pip
2. 安装wheel
指令:pip install wheel
3. 安装lxml
先检查python的版本,对应下载是选64还是32
下载lxml
安装lxml
指令:pip install lxml-4.5.2-cp38-cp38-win_amd64.whl
4. 安装Twisted
先检查python的版本,对应下载是选64还是32
下载Twisted
安装Twisted
指令:pip install Twisted-20.3.0-cp38-cp38-win_amd64.whl
5. 安装scrapy
指令:pip install scrapy
安装成功
6. Scrapy指令
指令一:测试电脑当前爬取速度性能 — bench
指令:scrapy bench
指令二:将网页内容下载下来,然后在终端打印当前返回的内容,相当于 request 和 urllib 方法 — fetch
指令:scrapy fetch <url>
指令三:在新项目中创建一个新的spider文件 — genspider
指令:scrapy genspider mydomain mydomain.com
mydomain为spider文件名,mydomain.com为爬取网站域名
指令四:运行spider — runspider
指令:scrapy runspider <spider_file.py>
指令五:返回系统设置信息 — settings
指令:scrapy settings [options]
比如:scrapy settings --get BOT_NAME
指令六:打开 scrapy 显示台,类似ipython,可以用来做测试 — shell
指令:scrapy shell [url]
指令七:创建一个新项目 — startproject
指令:scrapy startproject myproject
指令八:显示scrapy版本 — version
指令:scrapy version [-v]
指令九:将网页内容保存下来,并在浏览器中打开当前网页内容,直观呈现要爬取网页的内容 — view
指令:scrapy view <url>
7. 使用scrapy创建爬虫项目
项目目录结构
scrapydemo
-- scrapydemo
-- _pycache_
-- spiders
-- _pycache_
-- __init__.py
-- __init__.py
-- items.py
-- middlewares.py
-- pipelines.py
-- settings.py
-- scrapy.cfg
持续更新ing…