Strom基础

最新推荐文章于 2019-10-10 22:10:26 发布

转载最新推荐文章于 2019-10-10 22:10:26 发布 · 774 阅读

Strom 专栏收录该内容

15 篇文章

订阅专栏

Storm是一款开源的分布式实时计算系统，适合处理大量实时数据。它能够保证数据处理的高可靠性及实时性，支持多种编程语言，易于扩展且具备良好的容错机制。

转载自：
http://blog.youkuaiyun.com/hguisu/article/details/8454368
http://san-yun.iteye.com/blog/2095475

Storm简介

全量数据处理一般使用Hadoop，但是Hadoop擅长海量数据批处理，不擅长实时计算，无法实时计算数据，并把结果反馈到系统。对比Hadoop，Storm是个实时的、分布式以及具备高容错的计算系统。
同Hadoop一样Storm也可以处理大批量的数据，然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时；也就是说，所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性，这就让Storm可以扩展到不同的机器上进行大批量的数据处理。它同样还有以下的这些特性：
• 易于扩展。只需要添加机器和改变对应的topology（拓扑）设置。Storm使用Hadoop Zookeeper进行集群协调，这样可以充分的保证大型集群的良好运行。
• 每条信息的处理都可以得到保证。
• Storm集群管理简易。
• Storm的容错机能：一旦topology递交，Storm会一直运行它，直到该topology被废除或者被关闭。而在执行中出现错误时，也会由Storm重新分配任务。
• 尽管通常使用Java，Storm中的topology可以用任何语言设计。

Storm重要概念

Storm里面各个对象的示意图：

Topology（拓扑）

一个实时计算应用程序的逻辑在storm里面被封装到topology对象里面，因为各个组件间的消息流动形成逻辑上的一个拓扑结构。一个topology是spouts和bolts组成的图状结构，通过stream groupings将图中的spouts和bolts连接起来。
一个topology会一直运行直到手动kill掉，Storm自动重新分配执行失败的任务，并且Storm可以保证不会有数据丢失（如果开启了高可靠性的话）。如果一些机器意外停机它上面的所有任务会被转移到其他机器上。
运行一个topology很简单。首先，把所有的代码以及所依赖的jar打进一个jar包。然后运行类似下面的这个命令：
--- storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2
这个命令会运行主类: backtype.strom.MyTopology, 参数是arg1, arg2。这个类的main函数定义这个topology并且把它提交给Nimbus。storm jar负责连接到Nimbus并且上传jar包。Topology的定义是一个Thrift结构，并且Nimbus就是一个Thrift服务，可以提交由任何语言创建的topology。

Spout（消息源）

消息源spout是Storm里面一个topology里面的消息生产者。简而言之，Spout从外部源读取数据，并向topology里面发出消息，即Tuple。
Spout分成可靠和不可靠两种：可靠的Spout会对没有被成功处理的tuple进行重发；而不可靠的Spout不会考虑接收成功与否只发射一次。
spout可以发射多条消息流stream。要达到这样的效果，使用OutputFieldsDeclarer.declareStream来定义多个stream，然后使用SpoutOutputCollector来发射指定的stream。
而Spout中最主要的方法就是nextTuple()，该方法会发射一个新的tuple到topology，如果没有新tuple发射则会简单的返回。要注意的是nextTuple方法不能阻塞，因为storm在同一个线程上面调用所有消息源spout的方法。另外两个比较重要的spout方法是ack和fail，storm在检测到一个tuple被整个topology成功处理的时候调用ack，否则调用fail。storm只对可靠的spout调用ack和fail。

Bolt（消息处理者）

Topology中所有的消息处理都由Bolt完成，Bolts可以做很多事情：过滤，聚合，查询数据库等等。
Bolt从Spout中接收数据并进行处理，如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。
Bolts可以发射多条消息流，使用OutputFieldsDeclarer.declareStream定义stream，使用OutputCollector.emit来选择要发射的stream。
Bolt中最重要的方法是execute()，以一个tuple作为输入。Bolt使用OutputCollector来发射tuple，bolt必须要为它处理的每一个tuple调用OutputCollector的ack方法，以通知Storm这个tuple被处理完成了，从而通知这个tuple的发射者spouts。一般的流程是： bolts处理一个输入tuple, 发射0个或者多个tuple, 然后调用ack通知storm自己已经处理过这个tuple了。storm提供了一个IBasicBolt会自动调用ack。

Storm集群组件

Storm集群主要由一个主节点和一群工作节点组成，通过Zookeeper进行协调。

Nimbus主节点

主节点通常运行一个后台程序 —— Nimbus，用于响应分布在集群中的节点，分配任务和集群监控等。

Supervisor工作节点

工作节点同样会运行一个后台程序 —— Supervisor，用于负责接收Nimbus分配的任务，管理属于自己的Worker进程。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。
Supervisor的作用是负责监听Nimbus的任务分配，启动分配到的Worker来对相应的任务进行处理。同时Supervisor会对本地的worker进程进行监控，如果发现状态不正常会杀死Worker并重启，超过一定次数后将分配给该错误状态的Worker的任务交还给Nimbus再次进行分配。

Worker

运行具体处理逻辑的进程。Worker 运行在Supervisor节点上面，被Supervisor进程创建的用来干活的进程。Supervisor会负责监听它管辖的Worker，根据需要启动/关闭Worker进程。
每一个worker都会占用工作节点的一个端口，这个端口可以在storm.yarm中配置（storm.yarm中设置的端口数即每个Supervisor节点最多能起来的worker数）。