爬虫第十一课---scrapy_redis的使用以及爬取boss直聘代码

本文详细介绍了如何利用Python的scrapy_redis框架爬取boss直聘网站的数据,包括设置爬虫项目、配置redis、实现中间件和调度器,以及具体的爬取过程。通过实例展示了scrapy_redis在分布式爬虫中的应用。
'''
scrapy_redis

request请求的共享
我们使用基于内存存储的redis数据库处理,解决request请求调度的问题

url去重

scrapy_redis提供的组件
Schedule  dupefilter  Pipeline Spider

Request队列 Schedule

安装 pip install scrapy_redis

实现步骤
修改原来的父类,继承RedisSpider
修改settings 里面的配置
启动之后,往redis_key里面添加url就可以了


原spider修改成scrapy_redis

配置中修改:
去重:DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

调度器: SCHEDULER = "scrapy_redis.scheduler.Scheduler"

保持队列,允许暂停和恢复:SCHEDLER_PERSIST = True

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline':400,
}

redis配置
REDIS_HOST = '127.0.0.1'
REDIS_POST = 6379

spider中修改类:
from scrapy_redis.spiders import RedisSpider

继承RedisSpider

添加字段 redis_key = '爬虫名称:start_url'


强烈建议:不要把数据存储到redis中
'''
# -*- co
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韩淼燃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值