最近在自学python中的scrapy爬虫模块,以下是一些我的理解:
scrapy有自己的模块组成,
自定义的spider通过请求链接访问,scheduler模块负责封装url请求的一些参数然后带着封装好的request对象去请求下载保存链接返回的资源(
middlewares控制下载时候的参数:eg:设置代理),
然后将Response交给spider模块中的回调函数spider处理,最终将需要的数据封装成items给item pipelines模块去清洗。
编写顺序:
- 创建一个Scrapy项目
- 定义提取的Item
- 编写爬取网站的
spider 并提取 Item - 编写
Item Pipeline 来存储提取到的Item(即数据)