scrapy框架的学习
先熟悉下scrapy项目结构:
scrapyTest/scrapyTest/ _init_.py用来初始化项目信息
scrapyTest/scrapyTest/ items.py文件为爬虫项目的数据容器文件,主要用来定义我们的数据.
scrapyTest/scrapyTest/ pipelines.py文件为爬虫项目的管道文件,主要用于对items中的数据进行进一步加工与处理
scrapyTest/scrapyTest/ settings.py文件为爬虫项目的设置文件,主要为爬虫项目设置一些信息。
spider文件夹下放置的是爬虫项目的爬虫部分相关的文件。
scrapyTest/scrapyTest/spider/ _init_.py文件为爬虫项目中部分代码进行初始化,主要是为spider进行初始化,以上是对scrapy项目的结构进行说明。
1. 创建scrapy项目: 比如我们需要在“D:\python\day1\”这个目录创建项目。
直接输入一下命令:
cd D:\python\day1\
scrapy startproject <projectname> (这里我用scrapyTest来命名)
这里就创建scrapy项目成功
我们进入到创建项目的目录:cd 项目名称
在创建项目过程中我们也可以加一些参数进行控制:
输入命令:
scrapy startproject -h
输出如下:
Usage
=====
scrapy startproject <project_name> [project_dir]
Create new project
Options
=======
--help, -h show this help message and exit
Global Options
--------------
--logfile=FILE log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
log level (default: DEBUG)
--nolog disable logging completely
--profile=FILE write python cProfile stats to FILE
--pidfile=FILE write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
set/override setting (may be repeated)
--pdb enable pdb on failure
--logfile=File用来指定打印日志存放的目录
例如: scrapy startproject --logfile=log.txt scrapyTest