目录
0
创建新项目
下载 scrapy
pip install scrapy
该命令先依据 项目名 创建一个文件夹,然后再文件夹下创建于个 scrpy
项目,这一步是后续所有代码的起点。
scrpy startproject <项目名>
创建新项目
scrapy startproject my_scrapy
创建第一个 scrapy
爬虫文件 pm
scrapy genspider pm imspm.com
如果想要运行项目命令,则必须先进入红色下划线 my_scrapy
文件夹,在项目目录中才能控制项目。
cd my_scrapy
此时在 spiders
文件夹中,出现 pm.py
文件,该文件内容如下所示:
import scrapy
class PmSpider(scrapy.Spider):
name = 'pm'
allowed_domains = ['imspm.com']
start_urls = ['http://imspm.com/']
def parse(self, response):
pass
测试 scrapy 爬虫运行
使用命令 scrapy crawl <spider>
,spider
是上文生成的爬虫文件名,出现如下内容,表示爬虫正确加载。
2022-11-12 15:27:02 [scrapy.utils.log] INFO: Scrapy 2.6.2 started (bot: my_scrapy)
怎么用scrapy
scrapy
工作流程非常简单:
- 采集第一页网页源码;
- 解析第一页源码,并获取下一页链接;
- 请求下一页网页源码;
- 解析源码,并获取下一页源码;
- […]
- 过程当中,提取到目标数据之后,就进行保存。
scrapy
一个完整的案例应用
> scrapy startproject my_project 爬虫
> cd 爬虫
> scrapy genspider pm imspm.com
获得项目结构如下:
scrapy.cfg
:配置文件路径与部署配置;items.py
:目标数据的结构;middlewares.py
:中间件文件;pipelines.py
:管道文件;settings.py
:配置信息。
代码请求次数为 7 次,原因是在 pm.py
文