
storm
小飞侠-2
我的github地址https://github.com/liujiekasini 欢迎大家分享讨论
展开
-
Storm入门教程:构建Topology(1)
一、Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfigurationStorm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在S转载 2015-12-18 14:50:15 · 1100 阅读 · 0 评论 -
storm 网上中文资料搜集大全
storm 网上中文资料搜集大全 ——comaple.zhang 其实,如果英文还算可以的话建议直接去看官方的英文文档。storm关键概念和这个相对应的这里有一篇我觉得翻译不错的文章storm关键概念中文我会为大家找一些中文方面的资料,以便于s转载 2016-04-05 08:56:16 · 507 阅读 · 0 评论 -
extends BaseBasicBolt
Storm中的很多Bolt都有一个最常见的处理步骤:读入一个tuple;根据这个输入tuple,提取后发射0个,1个或多个tuple;最后,通过ack操作确认这个tuple被成功处理。按照上述处理步骤,依次处理发向这个Bolt的各个tuple元组。这种模式可以实现像ETL这类的简单函数或过滤器功能,Storm中专门为这种模式封装了相应接口:IBasicBolt。BaseBa转载 2017-02-20 13:53:15 · 383 阅读 · 0 评论 -
Storm集成Kafka编程模型
一、实现模型数据流程:1、Kafka Producter生成topic1主题的消息2、Storm中有个Topology,包含了KafkaSpout、SenqueceBolt、KafkaBolt三个组件。其中KafkaSpout订阅了topic1主题消息,然后发送给SenqueceBolt加工处理,最后数据由KafkaBolt生成topic2主题消息发送给Kafka转载 2017-02-20 14:14:41 · 1109 阅读 · 0 评论 -
KafkaSpout 浅析
最近在使用storm做一个实时计算的项目,Spout需要从 KAFKA 集群中读取数据,为了提高开发效率,直接使用了Storm提供的KAFKA插件。今天抽空看了一下KafkaSpout的源码,记录下心得体会。 KafkaSpout基于kafka.javaapi.consumer.SimpleConsumer实现了consumer客户端的功能,包括 partition的分配,消费转载 2017-02-20 14:17:34 · 3703 阅读 · 0 评论 -
storm笔记 -- 与kafka的集成
storm与kafka的结合,即前端的采集程序将实时数据源源不断采集到队列中,而storm作为消费者拉取计算,是典型的应用场景。因此,storm的发布包中也包含了一个集成jar,支持从kafka读出数据,供storm应用使用。这里结合自己的应用做个简单总结。 由于storm已经提供了storm-kafka,因此可以直接使用,使用kafka的低级api读取数据。如果有需要的话,自己实现也并不困转载 2017-02-20 14:29:38 · 494 阅读 · 0 评论 -
storm的ack和fail
为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪, 这里面涉及到ack/fail的处理, 如果一个tuple处理成功, 会调用spout的ack方法, 如果失败, 会调用fail方法. 而在处理tuple的每一个bolt都会通过OutputCollector来告知storm, 当前bolt处理是否成功. 为了了解OutputCollector的ack转载 2017-02-20 16:30:09 · 384 阅读 · 0 评论 -
storm 入门原理介绍
分类: Hadoop1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Nimbus和Supervisor之间的所有协调工作有master来完成,还是Zookeeper集群完成?6.转载 2017-02-20 16:36:07 · 319 阅读 · 0 评论 -
Storm处理流程, 基本参数配置
文章来源:http://www.cnblogs.com/chengxin1982/p/4001275.html配置选项名称配置选项作用topology.max.task.parallelism每个Topology运行时最大的executor数目topology.workers转载 2017-03-02 11:18:33 · 430 阅读 · 0 评论 -
IRichBolt和IBasicBolt/BaseBasicBolt对比
对于spout,有ISpout,IRichSpout,BaseRichSpout对于bolt,有IBolt,IRichBolt,BaseRichBolt,IBasicBolt,BaseBasicBoltIBasicBolt,BaseBasicBolt不用每次execute完成都写ack/fail,因为已经帮你实现好了。 作为storm的使用者,有两件事情要做以更好的利用stor转载 2017-03-02 11:24:22 · 934 阅读 · 0 评论 -
《Storm入门》中文版
本书基于最新的Storm0.7.1 版本撰写,从Storm开发环境的搭建、Storm工程的组成,到Storm各组件功能与开发,一步步的让读者入门并熟练掌握如何基于Storm的开发并利用Storm完成。本书共分为八个章节和三个附录:第一章介绍Storm的特性以及可能的应用场景。第二章讲述了Storm的运行模式,Storm工程包含的组件,以及如何创建一个Storm工程。第三章对Storm的转载 2016-03-11 16:24:39 · 1594 阅读 · 0 评论 -
Storm学习(一)Storm介绍
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一转载 2016-01-07 14:11:33 · 299 阅读 · 0 评论 -
Storm入门教程:前言
一、实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。随着互联网的更进一步发展,从P转载 2015-12-24 14:55:42 · 393 阅读 · 0 评论 -
Storm入门教程:安装部署步骤详解(1)
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。一、Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimbus转载 2015-12-24 14:56:12 · 384 阅读 · 0 评论 -
Storm详解二、写第一个Storm应用
在全面介绍Storm之前,我们先通过一个简单的Demo让大家整体感受一下什么是Storm。Storm运行模式:本地模式(Local Mode): 即Topology(相当于一个任务,后续会详细讲解) 运行在本地机器的单一JVM上,这个模式主要用来开发、调试。远程模式(Remote Mode):在这个模式,我们把我们的Topology提交到集群,在这个模式中,Storm的所有组件都转载 2016-03-07 15:40:19 · 512 阅读 · 0 评论 -
Storm应用系列之——集成Kafka [复制链接]
问题导读:Kafka集群中的Broker地址,有哪两种方法指定?TransactionalTridentKafkaSpout的作用是什么?本地模式无法保存Offset该如何解决?前言Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍转载 2016-03-08 08:49:52 · 1001 阅读 · 0 评论 -
Kafka+Storm+HDFS整合实践
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计算,一般情况下,我们都希望将离线和实时计算的数据源的集合统一起来作为输入,然后将数据的流向分别经由实时转载 2016-03-08 08:54:03 · 883 阅读 · 0 评论 -
twitter storm常用命令
1、提交Topologies命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】【stormIP地址】【storm端口】【拓扑名称】【参数】eg:storm jar /home/storm/storm-starter.jar storm.starter.WordCountTopology wordcountTop;storm jar /home/storm/stor转载 2016-04-01 10:55:33 · 339 阅读 · 0 评论 -
Storm分布式实时流计算框架相关技术总结
Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zookeeper集群Zookeeper是一个针对大型分布式系统的可靠协调服务系统,其采用类似Unix文件系统树形层次结构的数据模型(如:/zoo/a,/zoo/b),节点内可存储少量数据(Zookee转载 2016-04-01 10:56:06 · 1005 阅读 · 0 评论 -
storm实战入门一
本节探讨一下storm具体怎么使用,明白怎么在windows下开发storm程序。功能描述:实时随机输出一字符串。在开发前记得导入storm需要的jar包。1、SimpleSpout类继承BaseRichSpout类,用来产生数据并且向topology里面发出消息:tuple。package com.ljq.helloword;import java.util.转载 2016-04-01 10:56:42 · 354 阅读 · 0 评论 -
Apache Storm技术实战之1 -- WordCountTopology
欢迎转载,转载请注意出处,徽沪一郎。“源码走读系列”从代码层面分析了storm的具体实现,接下来通过具体的实例来说明storm的使用。因为目前storm已经正式迁移到Apache,文章系列也由twitter storm转为apache storm.WordCountTopology 使用storm来统计文件中的每个单词的出现次数。通过该例子来说明tuple发送时的几个要素转载 2017-03-02 13:33:22 · 706 阅读 · 0 评论