《2018年6月1日》【连续234天】
标题:Scrapy爬虫框架;
内容:
5+2分布式结构;
框架入口:Spider的初始爬取请求
框架出口:Item Pipeline
用户编写:spider,item pipeline
Engine:
(1)控制所有模块之间的数据流
(2)根据条件触发事件
Downloader:
根据请求下载网页
Scheduler:
对所有爬取请求进行调度管理
Spider:
(1)解析Downloader返回的响应(Response)
(2)产生爬取项(scraped item)
(3)产生额外的爬取请求(Request)
Item Pipelines
(1)以流水线方式处理Spider产生的爬取项
(2)由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型
(3)清理,检验和查重爬取项中的HTML数据,将数据存储到数据库
Scrapy:是网站级爬虫
命令行格式: >scrapy <command> [options] [args]
startproject
genspider
settings
crawl
list
shell
本文介绍了Scrapy爬虫框架的5+2分布式结构及各组件功能,包括Engine、Downloader、Scheduler、Spider和ItemPipelines等,并提供了常用命令示例。
2102

被折叠的 条评论
为什么被折叠?



