234day(Scrapy爬虫框架)

本文介绍了Scrapy爬虫框架的5+2分布式结构及各组件功能,包括Engine、Downloader、Scheduler、Spider和ItemPipelines等,并提供了常用命令示例。

《2018年6月1日》【连续234天】

标题:Scrapy爬虫框架;

 

内容:

5+2分布式结构;

框架入口:Spider的初始爬取请求

框架出口:Item Pipeline

用户编写:spider,item pipeline

Engine:

(1)控制所有模块之间的数据流

(2)根据条件触发事件

Downloader:

根据请求下载网页

Scheduler:

对所有爬取请求进行调度管理

Spider:
(1)解析Downloader返回的响应(Response)

(2)产生爬取项(scraped item)

(3)产生额外的爬取请求(Request)

Item Pipelines

(1)以流水线方式处理Spider产生的爬取项

(2)由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型

(3)清理,检验和查重爬取项中的HTML数据,将数据存储到数据库

 

Scrapy:是网站级爬虫

命令行格式: >scrapy <command> [options] [args]

startproject

genspider

settings

crawl

list

shell

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值