Python---scrapy框架的学习-优快云博客

2019独角兽企业重金招聘Python工程师标准>>>

scrapy框架的学习

先熟悉下scrapy项目结构：

scrapyTest/scrapyTest/ _init_.py用来初始化项目信息

scrapyTest/scrapyTest/ items.py文件为爬虫项目的数据容器文件，主要用来定义我们的数据.

scrapyTest/scrapyTest/ pipelines.py文件为爬虫项目的管道文件，主要用于对items中的数据进行进一步加工与处理

scrapyTest/scrapyTest/ settings.py文件为爬虫项目的设置文件，主要为爬虫项目设置一些信息。

spider文件夹下放置的是爬虫项目的爬虫部分相关的文件。

scrapyTest/scrapyTest/spider/ _init_.py文件为爬虫项目中部分代码进行初始化，主要是为spider进行初始化，以上是对scrapy项目的结构进行说明。

1. 创建scrapy项目：比如我们需要在“D:\python\day1\”这个目录创建项目。

直接输入一下命令：

cd  D:\python\day1\

scrapy startproject <projectname> (这里我用scrapyTest来命名)

这里就创建scrapy项目成功

我们进入到创建项目的目录：cd 项目名称

在创建项目过程中我们也可以加一些参数进行控制：

输入命令：

scrapy startproject -h

输出如下：

Usage
=====
  scrapy startproject <project_name> [project_dir]

Create new project

Options
=======
--help, -h              show this help message and exit

Global Options
--------------
--logfile=FILE          log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
                        log level (default: DEBUG)
--nolog                 disable logging completely
--profile=FILE          write python cProfile stats to FILE
--pidfile=FILE          write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure

--logfile=File用来指定打印日志存放的目录

例如： scrapy startproject --logfile=log.txt scrapyTest

转载于:https://my.oschina.net/quguangle/blog/1860260