大规模分布式爬虫系统中Kafka和rabbitMQ消息中间件的技术实践分享

原创

于 2022-04-16 17:28:57 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#big data #网络爬虫 #kafka #java

本文介绍了在一个拥有24节点Elasticsearch集群和Cassandra存储的大规模数据采集系统中，如何利用rabbitMQ和Kafka作为消息中间件来稳定运行450台爬虫机器。rabbitMQ用于压力分载，从redis获取URL种子进行数据采集；Kafka则用于并行数据处理，如数据清洗、标记等，处理后的数据存储在Elasticsearch和Cassandra。未来还将分享为何放弃MongoDB转而使用Cassandra的原因。

一、背景描述

目前后端数据引擎系统中使用了24个节点的 Elasticsearch 集群，存储每天采集1.7亿条上下的数据量，具体的网页原始数据存储在 Cassandra 集群中。一个月下来抓取的数据量超过2T，同时要保证每天450台爬虫机器同时抓取数据稳定运行，这么大的数据采集量当然需要一个可靠的爬虫系统。在这个爬虫系统中抓取任务和数据处理分发的稳定中间件必不可少。在多种MQ消息中间件里面，我们经过反复的试验和论证，最后选择了Kafka和rabbitMQ两种消息中间件，在分布式爬虫系统作为不同的用途使用，rabbitMQ做爬虫抓取压力分载，Kafka并行对一条数据多种状态处理。

备注：将来还会用一篇文章来阐述为什么我们要放弃使用MongoDB 转向 Cassandra。