一、scrapy框架基本介绍
在进行数据处理中,数据的获取是一个非常重要的环节。通用爬虫模型虽然能满足日常的数据获取需求,但是在性能、数据流程处理方面,自己再去编写相关的模块费时费力,也为了避免重复造轮子,因此之前就学习了scrapy框架,方便在较短的时间内去实现更快、更强大、更稳定的爬虫。
普通的requests+selenium模块是可以满足绝大多数的爬虫需求了,scrapy框架则可以在此基础上为我们的爬虫变得更加strong。
多线程等就不进行解释了,下面直接讲scrapy的基本介绍:
先上一个爬虫详解图
二、scrapy入门基本使用方法
与django框架使用方法类似,可以通过命令行创建和控制管理项目
1.创建一个项目
- 命令行输入
scrapy startproject MySpider(项目名称)
2.scrapy项目内容介绍
- 首先看一下创建好项目中的内容有那些
①MySpider(待完成)
②scrapy.cfg
此文件为项目的配置文件
其中[settings]为配置模块,默认为:defaolt = myspider.settings
,指使用MySpider模块下的settings作为配置文件
另外[deploy],指的是发布地址的,后续会将代码发布到该url地址,默认本地6800端口,project = MySpider
2.生成一个爬虫
- 创建好项目后,命令行会提示
You can start your first spider with:
cd ProjeceName
scrapy genspider example example.com
- 即创建好cd到该目录下即可创建爬虫了
- 使用命令
scrapy genspider example example.com
可以生成爬虫,example为爬虫名,根据需求修改,example.com为限制爬虫爬取范围,爬取指定域名,以免爬到其他网站。