流式计算:对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。简单来说就是不断的处理接收到数据,处理完成之后,再交给下一个处理单元继续处理。目前有很多流失计算框架,比如Yahoo!S4、StreamBase和Borealis,本文主要分析一下阿里巴巴开源的流式系统Jstorm
Jstorm用Java将Apache的Storm全部重写了一遍,同时还增加了一些新特性,其开源地址:https://github.com/alibaba/jstorm
通过git clone可以将源码克隆到本地,
1、Jstorm主要目录如下:
jstorm----docs:Jstorm相关的介绍文档----example:Jstorm使用示例代码----jstorm-client:jstorm客户端,提供了拓扑提交、查看等操作----jstorm-client-extension:客户端扩展工具,提供Jstorm对ZK的封装,Jstorm原信息等操作----jstorm-on-yarn:Jstorm对yarn的支持----jstorm-server:Jstorm内核----jstorm-ui:Jstorm web监控界面----jstorm-utility:其他项目与Jstorm的对接示例,例如kafka----other:Jstorm内部协议定义目录----target:Maven编译打包目录
2、Jstorm安装
Jstorm安装在其github的文档中已经做了详细介绍,同时也可以参考Jstorm安装
3、Jstorm架构
Nimbus是作为调度器角色,复杂任务的创建和非配,同时接受客户端提交的topology
Supervisor 作为worker的代理角色,负责杀死worker和运行worker,
Worker是task的容器
Task是真正任务的执行者
ZK 是整个系统中的协调者
4、Jstorm中的通信
1、nimbus客户端与nimbus使用thrift
2、nimbus与supervisor之间通过ZK间接通信
3、worker与worker之间默认为Netty,也可以采用zeroMQ(Storm默认采用zeroMQ)