以“健壮性”为第一原则的爬虫框架,基于Python
、RabbitMQ
、Docker
等开源组件为基础进行开发。·
整个基本的架构如下(还未包含全面):
设计理念
整个系统架构的原理是基于RabbitMQ
的生产者-消费者的模型来进行爬虫模块之间的解耦以及序列化数据的传递,依靠RabbitMQ
自身的集群性、持久化、消息确认机制作为爬虫健壮性的根本基础,将整个框架部署在Docker
容器内,也是考虑到使用Docker
时的可移植性以及容器伸缩的灵活性,最后一点,参照Python
里两大爬虫框架Scrapy
以及PySpider
的设计理念,也产生了中间件,可视化监控、服务端热动态的想法。
实现标准
1.健壮性
2.灵活性
3.扩展性
具体的开发情况请大家关注我的github:https://github.com/PythonScientists/RobustCrawler
