Strom基础

Storm是一款开源的分布式实时计算系统,适合处理大量实时数据。它能够保证数据处理的高可靠性及实时性,支持多种编程语言,易于扩展且具备良好的容错机制。

转载自:
http://blog.youkuaiyun.com/hguisu/article/details/8454368
http://san-yun.iteye.com/blog/2095475

Storm简介

       全量数据处理一般使用Hadoop,但是Hadoop擅长海量数据批处理,不擅长实时计算,无法实时计算数据,并把结果反馈到系统。对比Hadoop,Storm是个实时的、分布式以及具备高容错的计算系统。
       同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时;也就是说,所有的信息都会被处理。Storm同样还具备容错和分布计算这些特性,这就让Storm可以扩展到不同的机器上进行大批量的数据处理。它同样还有以下的这些特性:
       • 易于扩展。只需要添加机器和改变对应的topology(拓扑)设置。Storm使用Hadoop Zookeeper进行集群协调,这样可以充分的保证大型集群的良好运行。
       • 每条信息的处理都可以得到保证。
       • Storm集群管理简易。
       • Storm的容错机能:一旦topology递交,Storm会一直运行它,直到该topology被废除或者被关闭。而在执行中出现错误时,也会由Storm重新分配任务。
       • 尽管通常使用Java,Storm中的topology可以用任何语言设计。

Storm重要概念

       Storm里面各个对象的示意图:
       
Topology(拓扑)
       一个实时计算应用程序的逻辑在storm里面被封装到topology对象里面, 因为各个组件间的消息流动形成逻辑上的一个拓扑结构。一个topology是spouts和bolts组成的图状结构, 通过stream groupings将图中的spouts和bolts连接起来。
       一个topology会一直运行直到手动kill掉,Storm自动重新分配执行失败的任务, 并且Storm可以保证不会有数据丢失(如果开启了高可靠性的话)。如果一些机器意外停机它上面的所有任务会被转移到其他机器上。
       运行一个topology很简单。首先,把所有的代码以及所依赖的jar打进一个jar包。然后运行类似下面的这个命令:
       --- storm jar all-my-code.jar backtype.storm.MyTopology arg1 arg2
       这个命令会运行主类: backtype.strom.MyTopology, 参数是arg1, arg2。这个类的main函数定义这个topology并且把它提交给Nimbus。storm jar负责连接到Nimbus并且上传jar包。Topology的定义是一个Thrift结构,并且Nimbus就是一个Thrift服务, 可以提交由任何语言创建的topology。

Spout(消息源)
       消息源spout是Storm里面一个topology里面的消息生产者。简而言之,Spout从外部源读取数据,并向topology里面发出消息,即Tuple。
       Spout分成可靠和不可靠两种:可靠的Spout会对没有被成功处理的tuple进行重发;而不可靠的Spout不会考虑接收成功与否只发射一次。
       spout可以发射多条消息流stream。要达到这样的效果,使用OutputFieldsDeclarer.declareStream来定义多个stream,然后使用SpoutOutputCollector来发射指定的stream。
       而Spout中最主要的方法就是nextTuple(),该方法会发射一个新的tuple到topology,如果没有新tuple发射则会简单的返回。要注意的是nextTuple方法不能阻塞,因为storm在同一个线程上面调用所有消息源spout的方法。另外两个比较重要的spout方法是ack和fail,storm在检测到一个tuple被整个topology成功处理的时候调用ack,否则调用fail。storm只对可靠的spout调用ack和fail。

Bolt(消息处理者)
       Topology中所有的消息处理都由Bolt完成,Bolts可以做很多事情: 过滤, 聚合, 查询数据库等等。
       Bolt从Spout中接收数据并进行处理,如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。
       Bolts可以发射多条消息流,使用OutputFieldsDeclarer.declareStream定义stream,使用OutputCollector.emit来选择要发射的stream。
       Bolt中最重要的方法是execute(),以一个tuple作为输入。Bolt使用OutputCollector来发射tuple,bolt必须要为它处理的每一个tuple调用OutputCollector的ack方法,以通知Storm这个tuple被处理完成了,从而通知这个tuple的发射者spouts。 一般的流程是: bolts处理一个输入tuple,  发射0个或者多个tuple, 然后调用ack通知storm自己已经处理过这个tuple了。storm提供了一个IBasicBolt会自动调用ack。



Storm集群组件

       Storm集群主要由一个主节点和一群工作节点组成,通过Zookeeper进行协调。

Nimbus主节点
       主节点通常运行一个后台程序 —— Nimbus,用于响应分布在集群中的节点,分配任务和集群监控等。

Supervisor工作节点
       工作节点同样会运行一个后台程序 —— Supervisor,用于负责接收Nimbus分配的任务,管理属于自己的Worker进程。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。
       Supervisor的作用是负责监听Nimbus的任务分配,启动分配到的Worker来对相应的任务进行处理。同时Supervisor会对本地的worker进程进行监控,如果发现状态不正常会杀死Worker并重启,超过一定次数后将分配给该错误状态的Worker的任务交还给Nimbus再次进行分配。

Worker
       运行具体处理逻辑的进程。Worker 运行在Supervisor节点上面,被Supervisor进程创建的用来干活的进程。Supervisor会负责监听它管辖的Worker,根据需要启动/关闭Worker进程。
       每一个worker都会占用工作节点的一个端口,这个端口可以在storm.yarm中配置(storm.yarm中设置的端口数即每个Supervisor节点最多能起来的worker数)。

Zookeeper
       Zookeeper是完成Supervisor和Nimbus之间协调的服务,存放数据(如心跳信息、集群状态、配置信息等)。




基于可靠性评估序贯蒙特卡洛模拟法的配电网可靠性评估研究(Matlab代码实现)内容概要:本文围绕“基于可靠性评估序贯蒙特卡洛模拟法的配电网可靠性评估研究”,介绍了利用Matlab代码实现配电网可靠性的仿真分析方法。重点采用序贯蒙特卡洛模拟法对配电网进行长时间段的状态抽样与统计,通过模拟系统元件的故障与修复过程,评估配电网的关键可靠性指标,如系统停电频率、停电持续时间、负荷点可靠性等。该方法能够有效处理复杂网络结构与设备时序特性,提升评估精度,适用于含分布式电源、电动汽车等新型负荷接入的现代配电网。文中提供了完整的Matlab实现代码与案例分析,便于复现和扩展应用。; 适合人群:具备电力系统基础知识和Matlab编程能力的高校研究生、科研人员及电力行业技术人员,尤其适合从事配电网规划、运行与可靠性分析相关工作的人员; 使用场景及目标:①掌握序贯蒙特卡洛模拟法在电力系统可靠性评估中的基本原理与实现流程;②学习如何通过Matlab构建配电网仿真模型并进行状态转移模拟;③应用于含新能源接入的复杂配电网可靠性定量评估与优化设计; 阅读建议:建议结合文中提供的Matlab代码逐段调试运行,理解状态抽样、故障判断、修复逻辑及指标统计的具体实现方式,同时可扩展至同网络结构或加入更多确定性因素进行深化研究。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值