
爬虫学习
文章平均质量分 52
无敌的白金之星
这个作者很懒,什么都没留下…
展开
-
如何自己实现一个scrapy框架——框架完善(四)
这篇主要讲解如何实现多爬虫文件和多管道一、duo多爬虫文件实现1、首先,将每一个站点的爬虫分离为单独的文件我们项目中的站点一共两个,百度和豆瓣,分离为两个文件 baidu.py# project_dir/spiders/baidu.pyfrom scrapy_plus.core.spider import Spider# 继承框架的爬虫基类class BaiduSpi...转载 2018-10-10 11:36:50 · 402 阅读 · 0 评论 -
scrapy可视化管理工具gerapy学习笔记
安装和使用的方法见链接https://cuiqingcai.com/4959.html 值得注意的是需要的request版本比较高,如果本机有需要用到低版本的request,最好在虚拟机中安装总结一个管理爬虫项目的可视化工具,把项目部署到管理的操作全部变为交互式,相当的直观和方便。但是比起spiderkeeper相比缺少了定时爬虫功能,同时对于爬虫情况的可视化也不够完善。...原创 2018-08-18 21:31:43 · 1473 阅读 · 0 评论 -
scrapy可视化管理工具spiderkeeper使用笔记
spiderkeeper是一款开源的spider管理工具,可以方便的进行爬虫的启动,暂停,定时,同时可以查看分布式情况下所有爬虫日志,查看爬虫执行情况等功能。安装安装环境 ubuntu16.04 python3.5 pip3 install scrapy pip3 install scrapyd pip3 install scrapyd-client pip3 install ...原创 2018-08-18 19:44:17 · 12985 阅读 · 9 评论 -
如何自己实现一个scrapy框架——项目实战(八)
腾讯招聘爬虫案例1 腾讯招聘爬虫代码from scrapy_plus.core.spider import Spiderfrom scrapy_plus.htttp.request import Requestclass TencentSpider(Spider): name = 'tencent' start_urls = ['https://hr.tenc...原创 2018-10-10 11:36:22 · 466 阅读 · 0 评论 -
如何自己实现一个scrapy框架——框架升级(七)
一、增量爬虫设计原理及其实现1、增量爬虫设计原理增量抓取,意即针对某个站点的数据抓取,当网站的新增数据或者该站点的数据发生了变化后,自动地抓取它新增的或者变化后的数据 设计原理: 2、实现关闭请求去重 2.1 为Request对象增加属性filter# scrapy/http/reqeust.pyclass Request(): ""&a转载 2018-10-10 11:36:33 · 588 阅读 · 0 评论 -
如何自己实现一个scrapy框架——框架升级(六)
框架升级 – 分布式爬虫设计原理及其实现1 分布式爬虫原理多台服务器同时抓取数据,请求和指纹存储在同一个redis中 2 实现方案——利用redis实现队列注意pickle模块的使用:如果将对象存入redis中,需要先将其序列化为二进制数据,取出后反序列化就可以再得到原始对象 接口定义一致性:使用一个Queue利用redis,使其接口同python的内置队列接口一致,可以实现无...转载 2018-10-10 11:36:39 · 455 阅读 · 0 评论 -
如何自己实现一个scrapy框架——框架雏形(一)
一、了解框架1、首先明确一下,什么是框架:框架是为了为解决一类问题而开发的程序,框架两个字可以分开理解,框:表示指定解决问题的边界,明确要解决的问题;架:表达的是能够提供一定的支撑性和可扩展性;从而实现解决这类问题达到快速开发的目的。2、实现框架的好处是什么2.1现成开源第三方框架的局限性 现成开源第三方框架是为了尽可能满足大部分的需求,不可能做到面面俱到,以及第三方框架...转载 2018-10-10 11:36:03 · 522 阅读 · 0 评论 -
如何自己实现一个scrapy框架——框架雏形(二)
接着上一篇的文章如何自己实现一个scrapy框架 接着记录一下中间件、日志模块、配置文件的实现一、中间件1 为什么需要中间件中间件相当于一个钩子,能够在其中对request对象和response响应根据特定的需求进行一些特定的处理 例如:对于所有的request对象,我们需要在其中对他添加代理或者是随机的User-Agent都可以在中间件中完成2 中间件实现的逻辑...转载 2018-10-10 11:37:17 · 370 阅读 · 0 评论 -
如何自己实现一个scrapy框架——框架完善(三)
之前的两篇文章讲解了如何实现一个框架雏形,但是scrapy框架的强大功能一个都没有实现,接下来一个一个实现一、多爬虫实现之一 – 多请求实现在爬虫的时候通常都是多个请求同时进行1、多请求实现分析:2、 项目中实现爬虫文件在main.py同级目录下建立spiders.py,存放定义的爬虫类# project_dir/spiders.pyfrom scrapy...转载 2018-10-10 11:37:03 · 618 阅读 · 0 评论 -
如何自己实现一个scrapy框架——框架完善(五)
本篇内容包括:动态导入模块的实现 ,请求去重的实现,异步的实现一、动态模块导入的实现1 目前代码存在的问题通过前面的代码编写,我们已经能够完成大部分的任务,但是在main.py 中的代码非常臃肿,对应的我们可以在settings.py 配置哪些爬虫,管道,中间件需要开启,能够让整个代码的逻辑更加清晰2 模块动态导入的方法利用importlib.import_m...转载 2018-10-10 11:36:44 · 444 阅读 · 1 评论