Storm架构与特性解析-优快云博客

Nimbus ：负责资源分配和任务调度, 把任务相关的元信息写入Zookeeper 相应目录。
Supervisor ：负责接受nimbus 分配的任务，启动和停止属于自己管理的worker 进程。
Worker ：运行具体处理组件逻辑的进程。
Executor ：运行spout/bolt 的线程
Task ： worker 中每一个spout/bolt 的线程称为一个task.
Topology ： storm 中运行的实时应用程序，消息在各个组件间流动形成逻辑上的拓扑结构。
Spout ：在一个topology 中产生源数据流的组件， Spout 是一个主动的角色。
Bolt ：在一个topology 中接受数据然后执行处理的组件。Bolt 可以执行过滤、函数操作、合并、写数据库等任何操作。Bolt 是一个被动的角色。
Tuple ：消息传递的基本单元。
Stream ：源源不断传递的tuple 就组成了stream 。
stream grouping ：即消息的partition 方法。Storm 中提供若干种实用的grouping 方式，包括shuffle, fields hash, all, global, none, direct 和localOrShuffle 等。

特点

多语言编程。可以在Storm 之上使用各种编程语言。默认支持Clojure 、Java 、Ruby 和Python 。要增加对其他语言的支持，只需实现一个简单的Storm 通信协议即可。

容错性。Storm 会管理工作进程和节点的故障。如果您执行的计算过程中有错误， Storm 将重新分配任务；此外，通过Transactional Topology ， Storm 可以保证每个tuple“ 被且仅被处理一次”。Storm 确保一个计算可以一直运行下去（或直到你杀死计算）。

水平扩展。计算是在多个线程、进程和服务器之间并行进行的。

快速。系统的设计保证了消息能得到快速的处理，使用?MQ 作为其底层消息队列。

系统可靠性。Storm 这个分布式流计算框架是建立在Zookeeper 的基础上的，大量系统运行状态的元信息都序列化在Zookeeper 中。这样，当某一个节点出错时，对应的关键状态信息并不会丢失，换言之Zookeeper 的高可用保证了Storm 的高可用。