
64爬虫(三)消息队列和分布式爬虫
文章平均质量分 93
48N6E
这个作者很懒,什么都没留下…
展开
-
2020/04/08 07-RabbitMQ类应用实现异步爬虫
上次把类抽象出来,messagequeue,如果要测试,就需要两边一个生产数据一个消费数据,consume用的话就要配合start_consumingstart_consuming这里就会阻塞,你就要想办法起线程start_consuming是在所有的sonsume都cancel完了才停止t12里要把这3个替换掉以后提取url的也是专门的程序,可能也跑了很多个进程,这些进程也分布在不...原创 2020-04-09 11:30:06 · 478 阅读 · 1 评论 -
2020/04/07 06-RabbitMQ选型和类封装
本质上是一种模式,虽然一直在换type,本质上都是路由,模式改成direct,这样就可以根据路由的key,来进行数据的分发和投递,两个queue绑定的key一样,这样数据就发两份,有点像fanout,但是不完全一样,queue上绑定什么,只要符合都发对于生产者无非就是把type换成directpublish只需要告诉交换机是谁,告诉它routing是谁就ok了对于消费者来讲,链接到哪个...原创 2020-04-08 21:37:55 · 254 阅读 · 0 评论 -
2020/04/06 05-模拟登陆和多线程异步爬虫
学习爬虫第一步学习模拟登陆只要是这里记住密码登陆了才有退出可以查看用户那么它是如何知道你登录了,最重要的是cookie,其他值比如session,打开浏览器早就没了,application本地存储有一大堆东西加密的数据,有些数据是base64编码后加密过再发过来的现在把这个数据删除掉。下一次发送请求的时候,oscid就没了现在就需要登录了现在把登录后,cookie...原创 2020-04-07 22:29:29 · 436 阅读 · 0 评论 -
2020/04/06 04-Topic模式编程和消息中间件作用
Topic 话题模式q1和q2不动,消费者该干什么干什么,关键是生产者发过来的数据该怎么走,把工作模式换成topic,就把原来等值匹配routing_key,变成了模式匹配。原来等值匹配,现在模式匹配,成了高级路由了,仅此而已,是一种高级的支持模式匹配的路由模式,叫topic如果是多个组成,中间应该使用.点号分割的单词组成,最长255个字节*支持通配符,就两个 ,星号代表严格的一个单词...原创 2020-04-06 20:49:00 · 566 阅读 · 0 评论 -
2020/04/06 03-发布订阅模式和路由模式编程
队列和工作队列模式本质上就是路由模式,只不过是简单的使用路由的方式,用的是默认的交换机,可以不定义使用哪个交换机,定义使用哪个queue队列,queue做了一个routing-keyrouting-key用了queue的名字这里交换机不写,就看链接的哪个虚拟主机,会创建一个缺省交换机的,这时候用的routing-key就是这一块queue的名字工作队列就是把消费端整了好几个,多线程可...原创 2020-04-06 16:32:35 · 1022 阅读 · 0 评论 -
2020/04/05 02-队列和工作队列模式及Pika编程
rabbitmq启动端口5672,15672,25672就代表成功了,登录web界面可以看到管理的东西,有一些概念名词;工作方式有如下几种,1,2,3,4,5是很重要的,在官网上可以看到文档,底下选择相应的语言即可,amqp是标准协议名词有几个概念很重要,生产者和消费者,队列的服务器称为server和broker,建立链接要使用通道,里面有虚拟主机,虚拟主机下可能包含交换机和queue,...原创 2020-04-05 18:34:29 · 382 阅读 · 1 评论 -
2020/04/03 01-RabbitMQ安装、管理和名词解释
rabbitmq是非常主流的第三方消息队列,队列在解决高并发的时候是非常重要的角色,系统间解耦需要,高并发也需要,在很多生产者和消费者,队列一定会使用。还有大数据领域使用的kafka。rabbitmq是要解决高并发和系统间解耦人问题,实现的东西也是大多数队列都支持 的东西,叫AMQP高级消息队列协议,只要这个队列支持AMQP,都可以用这个库来连接你。Erlang语言也是在go语言之前提过高...原创 2020-04-05 14:23:26 · 316 阅读 · 0 评论