要采集大量数据,需要分布全球上千个甚至更多爬虫客户端,他们之间的 通信协同,任务分发等,第一时间想到消息中间件,开源的很多,花了很长时间,试用,学习,都没有进入实用,因为不熟悉,在他们的概念绕来绕去,最后决定使用 邮件服务器和客户端实现异步通信, 省去编写异步多线程系统的麻烦,邮件服务器和客户端经过千锤百炼,多用户,开源,标准化,跨平台,多编程语言支持,可靠性肯定会比新编写要强,服务器比较小,才4MB 大小,安装配置容易,开源客户端也极多。配置可以不使用域名,直接使用IP,不使用中央邮件邮件服务器,服务器和爬虫端都安装邮件服务器,通信地址就是邮件地址,完全不 用管它们之间的通信细节,也避免多端频繁扫描新邮件造成中央服务器极大压力。使用客户端不断扫描本地服务器,有新邮件就处理,需要回复就根据发送来的邮件地址回复,这样所有操作都在本地,不管他们之间通信如何实现,也省去连接中央邮件服务器
采用 客户端 空闲时候申请任务,然后根据任务,先抓取数据,分析数据,
要协同任务
任务分发也很简单,客户端空闲了发送申请任务邮件,回复邮件,发送确认邮件。为加快速度,没个爬虫端都安装简单邮件服务器,需要发送和收取都在本地操作。邮件最终回到