PS:以下内容参照于《Python 3 爬虫、数据清洗与可视化实战》的第五章内容P78-P87
目录
一、创建scrapy项目
- 任意地方新建文件夹,此文件夹只是为方便管理项目,并非真正的项目文件夹
- 打开cmd切到项目文件夹,输入以下代码正式创建scrapy项目:
scrapy startproject stockstar
- 在settings文件中,设置不遵守Robot协议
ROBOTSTXT_OBEY = False
- Mark directory as "sources root"
二、定义一个item容器
- item是存储爬取数据的容器
- 先对所要爬取的网页数据进行分析,定义所爬取的数据结构
- items.py是自动创建的,补充代码如下:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
from scrapy.loader