一:Scrapy的项目目录结构
创建Scrapy框架的项目需要使用命令:scrapy startproject 项目名。如下,创建了一个名为firstpypro的scrapy项目:
F:\NEW>scrapy startproject firstpypro
New Scrapy project 'firstpypro', using template directory 'c:\\users\\111\\appda
ta\\local\\programs\\python\\python36\\lib\\site-packages\\scrapy\\templates\\pr
oject', created in:
F:\NEW\firstpypro
You can start your first spider with:
cd firstpypro
scrapy genspider example example.com
创建完毕之后,对应的文件目录下就会出现一个文件夹,其中文件夹名与项目名相同(即为firstpypro),其下包含一个同名的子文件和scrapy.cfg文件。

scrapy.cfg:爬虫项目的配置文件。
__init__.py:爬虫项目的初始化文件,用来对项目做初始化工作。
items.py:爬虫项目的数据容器文件,用来定义要获取的数据。
pipelines.py:爬虫项目的管道文件,用来对items中的数据进行进一步的加工处理。
settings.py:爬虫项目的设置文件,包含了爬虫项目的设置信息。
middlewares.py:爬虫项目的中间件文件,
二:Scrapy项目的常用命令
首先,我们先查看Scrapy项目的全部命令(分为全局命令和项目命令):
一:全局命令
(1)fetch:用来显示爬虫爬取的过程
F:\NEW>scrapy fetch --headers --nolog http://www.baidu.com
> Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
> Accept-Language: en
> User-Agent: Scrapy/1.