转载自:
http://blog.youkuaiyun.com/hguisu/article/details/8454368
http://san-yun.iteye.com/blog/2095475
Storm简介
全量数据处理一般使用Hadoop,但是Hadoop擅长海量数据批处理,不擅长实时计算,无法实时计算数据,并把结果反馈到系统。对比Hadoop,Storm是个实时的、分布式以及具备高容错的计算系统。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。它同样还有以下的这些特性:
• 易于扩展。只需要添加机器和改变对应的topology(拓扑)设置。Storm使用Hadoop Zookeeper进行集群协调,这样可以充分的保证大型集群的良好运行。
• 每条信息的处理都可以得到保证。
• Storm集群管理简易。
• Storm的容错机能:一旦topology递交,Storm会一直运行它,直到该topology被废除或者被关闭。而在执行中出现错误时,也会由Storm重新分配任务。
• 尽管通常使用Java,Storm中的topology可以用任何语言设计。
Storm重要概念
Storm里面各个对象的示意图:Topology(拓扑)
一个实时计算应用程序的逻辑在storm里面被封装到topology对象里面, 因为各个组件间的消息流动形成逻辑上的一个拓扑结构。一个topology是spouts和bolts组成的图状结构, 通过stream groupings将图中的spouts和bolts连接起来。一个topology会一直运行直到手动kill掉,Storm自动重新分配执行失败的任务, 并且Storm可以保证不会有数据丢失(如果开启了高可靠性的话)。如果一些机器意外停机它上面的所有任务会被转移到其他机器上。
运行一个topology很简单。首先,把所有的代码以及所依赖的jar打进一个jar包。然后运行类似下面的这个命令:
--- storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2
这个命令会运行主类: backtype.strom.MyTopology, 参数是arg1, arg2。这个类的main函数定义这个topology并且把它提交给Nimbus。storm jar负责连接到Nimbus并且上传jar包。Topology的定义是一个Thrift结构,并且Nimbus就是一个Thrift服务, 可以提交由任何语言创建的topology。
Spout(消息源)
消息源spout是Storm里面一个topology里面的消息生产者。简而言之,Spout从外部源读取数据,并向topology里面发出消息,即Tuple。Spout分成可靠和不可靠两种:可靠的Spout会对没有被成功处理的tuple进行重发;而不可靠的Spout不会考虑接收成功与否只发射一次。
spout可以发射多条消息流stream。要达到这样的效果,使用OutputFieldsDeclarer.declareStream来定义多个stream,然后使用SpoutOutputCollector来发射指定的stream。
而Spout中最主要的方法就是nextTuple(),该方法会发射一个新的tuple到topology,如果没有新tuple发射则会简单的返回。要注意的是nextTuple方法不能阻塞,因为storm在同一个线程上面调用所有消息源spout的方法。另外两个比较重要的spout方法是ack和fail,storm在检测到一个tuple被整个topology成功处理的时候调用ack,否则调用fail。storm只对可靠的spout调用ack和fail。
Bolt(消息处理者)
Topology中所有的消息处理都由Bolt完成,Bolts可以做很多事情: 过滤, 聚合, 查询数据库等等。Bolt从Spout中接收数据并进行处理,如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。
Bolts可以发射多条消息流,使用OutputFieldsDeclarer.declareStream定义stream,使用OutputCollector.emit来选择要发射的stream。
Bolt中最重要的方法是execute(),以一个tuple作为输入。Bolt使用OutputCollector来发射tuple,bolt必须要为它处理的每一个tuple调用OutputCollector的ack方法,以通知Storm这个tuple被处理完成了,从而通知这个tuple的发射者spouts。 一般的流程是: bolts处理一个输入tuple, 发射0个或者多个tuple, 然后调用ack通知storm自己已经处理过这个tuple了。storm提供了一个IBasicBolt会自动调用ack。
Storm集群组件
Storm集群主要由一个主节点和一群工作节点组成,通过Zookeeper进行协调。Nimbus主节点
主节点通常运行一个后台程序 —— Nimbus,用于响应分布在集群中的节点,分配任务和集群监控等。Supervisor工作节点
工作节点同样会运行一个后台程序 —— Supervisor,用于负责接收Nimbus分配的任务,管理属于自己的Worker进程。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。Supervisor的作用是负责监听Nimbus的任务分配,启动分配到的Worker来对相应的任务进行处理。同时Supervisor会对本地的worker进程进行监控,如果发现状态不正常会杀死Worker并重启,超过一定次数后将分配给该错误状态的Worker的任务交还给Nimbus再次进行分配。
Worker
运行具体处理逻辑的进程。Worker 运行在Supervisor节点上面,被Supervisor进程创建的用来干活的进程。Supervisor会负责监听它管辖的Worker,根据需要启动/关闭Worker进程。每一个worker都会占用工作节点的一个端口,这个端口可以在storm.yarm中配置(storm.yarm中设置的端口数即每个Supervisor节点最多能起来的worker数)。
Storm是一款开源的分布式实时计算系统,适合处理大量实时数据。它能够保证数据处理的高可靠性及实时性,支持多种编程语言,易于扩展且具备良好的容错机制。
792

被折叠的 条评论
为什么被折叠?



