环境安装
这里建议使用anconda安装,直接用pip install Scrapy的话容易报错
- 安装anconda
- cmd打开终端 创建虚拟环境输入命令:conda create -n scrapy_env
- 安装 scrapy 命令:conda install scrapy
- 检查安装的包 命令:pip list
初步爬虫
- 创建一个项目 scrapy startproject mySpider
- 创建抓取程序 scrapy genspider itcast xxx.com(域名)
- 此时项目结构如下:
├──mySpider
│ ├── scrapy.cfg==================================== 项目的配置文件
│ ├── mySpider==================项目的Python模块,将会从这里引用代码
│ │ ├── init.py
│ │ ├── items.py ====================================项目的目标文件
│ │ ├── pipelines.py ================================= 项目的管道文件
│ │ ├── settings.py ================================== 项目的设置文件
│ │ ├── spiders =================================== 存储爬虫代码目录
│ │ │ ├── init.py
│ │ │ ├── itcast.py~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 示例抓取文件 - 运行itcast.py文件,命令:scrapy crawl itcast --nolog(不用–nolog的话,有很多日志输出控制台)