Scrapy爬虫框架学习

目录

 

五大模块

Downloader

Spider

ItemPipeline

Schedule

Engine

四个配置参数

三个对象

scrapy.http.Request

常用属性

常用方法

Response

常用属性

常用方法

Item

两类中间件

DownloaderMiddleware

SpiderMiddleware


五大模块

Downloader

获取请求,发送请求,下载网页

Spider

解析html,产生爬取请求和数据

ItemPipeline

流水线处理数据,清理、检验、查重、存储

Schedule

对爬取请求进行调度

Engine

控制数据流,根据事件触发对应的模块

四个配置参数

名称用途默认值
CONCURRENT_REQUESTS最大并发下载32
CONCURRENT_ITEMS并发item处理100
CONCURRENT_REQUESTS_PER_DOMAIN单域名最大并发下载8
CONCURRENT_REQUESTS_PER_IP单ip最大并发下载0

三个对象

scrapy.http.Request

代表一个HTTP请求

常用属性

属性含义
.url请求的地址
.method"GET" or "POST"
.headers请求头,以字典形式组织
.body请求主体,以字符串形式组织
.meta用户添加的扩展信息

 

常用方法

.copy():给出该对象的一个复制

Response

代表一个HTTP响应

常用属性

属性含义
.urlHTTP请求的url
.status响应的状态码
.headers响应的头部信息
.body响应的主体信息,以字符串形式组织
.flags一组标记
.request对应的HTTP请求

常用方法

.copy():给出该对象的一个复刻

Item

包含信息的字典对象

两类中间件

DownloaderMiddleware

修改、丢弃、新增请求或响应

SpiderMiddleware

对请求和爬取项进行再处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值