
kafka
humanity11
这个作者很懒,什么都没留下…
展开
-
kafka分布式爬虫系统-任务的发放
任务的发放任务发放应该是一个全局的总机,它主要和用户打交道,用来接收用户的请求,然后将用户的请求转换成机器能执行的任务。用户就不需要关心任务是如何发放的,只要将想要抓的网站或内容分配给总机即可。这里些问题需要考虑是:1.如何保证任务能有序的执行。2.保证断电了任务不丢失,来电了任务还能继续在原来的断点处执行。3.当用户如果发了几百万的任务,保证所有主机不崩溃。基于前面的3点,我想到如下解决方案...原创 2019-01-24 21:49:18 · 1610 阅读 · 0 评论 -
kafka的分布式爬虫系统
前言 几乎停顿了1年之久,很久没写博客了,一方面是在院里做项目太忙,另一方面是自己也在摸索大数据领域的技术,终于自己搭起来了个基于kafka的分布式爬虫程序,可以抓网站的图像了,不多说,先看抓的图像数据。目前存储在elastic中的图像记录条数为1.7亿条,用了13个节点,具体的图像数据存储在hbase中。抓取的数据量超过2T,并20台机器同时抓取保持每天800w条数据增长,每天这么...原创 2019-01-24 21:37:28 · 2434 阅读 · 0 评论