1、安装
pip install E:\python\lxml-4.2.6-cp36-cp36m-win_amd64.whl
pip install E:\python\Twisted-18.9.0-cp36-cp36m-win_amd64.whl
pip install scrapy
2、爬虫实例
首先我们需要创建一个项目。
scrapy startproject douban_book #
在命令行输入scrapy startproject + [项目名],这样会生成一个scrapy项目。我这个项目的名称是douban_book。大家一看这个名字就知道,我待会要去爬取豆瓣网站图书的内容。
我们来简单看一下该项目的目录结构
我们真正的爬虫程序是写在spiders/bookspider.py文件中的,bookspider.py是我自己创建的文件,其他的文件都是scrapy自己
自动初始化好的。
其中item.py是配置爬虫具体返回的数据,待会我们在具体的例子中会看到如何定义自己需要返回的东西;
pipeline.py是配置具体的通道信息;
settings.py是设置信息,爬虫大部分的配置信息都要在该文件中进行。
首先我们先编写item.py文件,该文件设置爬虫具体的返回数据。
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#