
Spider
葬爱程序员
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy-redis实现分布式爬取的过程与原理
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Sc转载 2017-12-08 23:05:04 · 11055 阅读 · 0 评论 -
网站逆向分析js之RSA算法原理
传统密码无论加密解密都用了一个密码rsa非对称性加密由一对密钥组成,配对使用public key(代号’e’),公钥,专门用来加密,可以由多人掌管private key(代号’d’),私钥,专门用来解密,由主人自己进行保管一般公开发布公钥,自己用私钥进行解密举个例子,我是B:A 想要发送’Hello World’一个字符串给我, A 必须在我这拿一个公钥(e),用公钥(e)加密了这段文字,原创 2017-12-24 21:52:08 · 1220 阅读 · 0 评论 -
scrapy基础知识
scrapy简单介绍:基于twisted异步io框架,性能是最大的优势可以加入request和beautifulsoup方便扩展,提供了很多内置功能内置的css和xpath selector非常方便默认深度优先网页分类:静态网页: 事先在服务端生成好的页面,页面内容是不会变的动态页面: 通过后台传输ajax局部刷新页面信息,是渲染之后的webservice原创 2018-01-06 23:32:47 · 525 阅读 · 0 评论 -
scrapy_splash文档
Splash是通过Lua脚本来控制了页面的加载过程, 加载过程完全模拟浏览器,可以执行某些特定js脚本或者方法安装使用pip安装scrapy-splashpip install scrapy-splashScrapy-Splash使用Splash HTTP API,因此您还需要一个Splash实例。通常要安装docker并运行Splash,就像这样就足够了:doc...原创 2018-06-21 09:45:11 · 2223 阅读 · 0 评论 -
第三方库异步IO库 gevent
协程是一中多任务实现方式,它不需要多个进程或线程就可以实现多任务。greenlet:yield能实现协程,不过实现过程不易于理解,greenlet是在这方面做了改进greenlet可以实现协程,不过每一次都要人为的去指向下一个该执行的协程,显得太过麻烦from greenlet import greenletimport timedef A(): whi原创 2018-01-19 10:04:17 · 1896 阅读 · 0 评论 -
关于request、response转发与重定向的简述
在做页面的请求与响应的时候我们多用request与response进行操作,而我们大家也知道,request是表示用户发向服务器的请求,而response是对用户请求的一个响应。 关于转发和重定向,通俗的讲转发就像是你向售后技术支持打电话问问题,打过去是客服小王接的,但是小王无法解决,他让你等会儿,别挂电话,然后他去把问题告诉小李,让小李过来帮你解决,虽然换了人解决可是还是在这个售后处...转载 2017-12-08 13:42:13 · 295 阅读 · 0 评论