
scrapy
文章平均质量分 84
江中新ZHN
学海无涯
展开
-
Scrapy-Redis并部署到gerapy实战之腾讯招聘
在这里我和以往不同的做法是实现了首个url自动插入到redis中,而不是手动插入,因为上传的文件是压缩包格式,并不会帮助你插入首个url,这就会导致代码会一直监听request队列,从而使程序一直等待下去。这里建议使用gerapy的时候最好再创建一个虚拟环境,应为gerapy会下载指定版本的scrapy。需要注意的是,这里scrapyd里面的需要配置一个scrapyd.conf文件,从而使宿主机能够访问到它。名字随便取,IP是你虚拟机的ip,端口号是6800,不要选认证,接着创建。原创 2024-06-02 11:49:47 · 330 阅读 · 0 评论 -
Scrapy-Redis原理和源码解析
1.爬取队列的实现:提供了三种队列,使用redis的列表或者有序集合来维护。2.去重的实现:使用redis的集合来保存request指纹,以实现重复过滤。3.中断后重新爬取的实现:中断后的redis队列并没有清空,再次启动时调度器的会从队列中取到下一个request,继续爬取。Redis Queue(队列):在Scrapy-Redis中,请求是储存在Redis的队列中的。每当Spider产生新的请求时,它们被添加到队列里。每当需要新的请求去下载时,就会从队列里取出。原创 2024-05-22 16:20:08 · 790 阅读 · 0 评论