
Storm
wbj0110
这个作者很懒,什么都没留下…
展开
-
本地模式运行storm的demo
本例实现的是本地模式运行storm的wordcount demo!开发过程中,可以用本地模式来运行Storm,这样就能在本地开发,在进程中测试Topology。一切就绪后,以远程模式运行 Storm,提交用于在集群中运行的Topology。创建工程:demo-storm目录结构如下:demo-storm——src/main/java————com.youku.demo————————b...原创 2014-04-20 12:02:10 · 199 阅读 · 0 评论 -
Storm集群安装配置过程
首先:安装依赖包1, ZeroMQ 2.1.72, JZMQ3, Java4, Python5, Unzip这里只需要安装1,2就可以了。下面是遇到的一些问题:安装zeroMQ下载zeroMQ2.1.7 http://www.zeromq.org/area:download解压:tar –xvf zeromq-2.1.7.tar.gzCd...原创 2013-10-13 13:04:36 · 118 阅读 · 0 评论 -
Easy, Real-Time Big Data Analysis Using Storm
Conceptually straightforward and easy to work with, Storm makes handling big data analysis a breeze.Today, companies regularly generate terabytes of data in their daily operations. The source...原创 2013-10-12 09:15:05 · 373 阅读 · 0 评论 -
storm & metaq 实例
目录Storm项目:流数据监控 <4>. 1---流数据监控MetaQ接口... 11 文档说明... 12 MetaQ与Storm接口... 12.1 MetaqSpout. 12.1.1 接口说明... 12.1.2 上代码... 22.2 MetaqBolt. 52.2.1 接口说明... 52.2.1 上代码... 53 代码改动...原创 2013-10-12 09:14:01 · 158 阅读 · 0 评论 -
Storm实时处理方案架构
1 文档说明 该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分。关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析。该架构是本人所掌握的一种架构,可能会与其他架构有相似的部分,个人会一一解释对其的理解。 2 实时处理架构 2.1 整体架构图 架构说明:整个数据处理流...原创 2013-10-12 09:13:40 · 233 阅读 · 0 评论 -
Storm入门教程:安装部署
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。一、Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimbus的...原创 2013-10-10 09:09:42 · 342 阅读 · 0 评论 -
Storm的介绍与安装(简单)
Storm的集群跟hadoop的集群非常像。但是在Hadoop上面你运行的是MapReduce的Job, 而在Storm上面你运行的是Topology。在Storm的集群里面有两种节点: 控制节点(master node)和工作节点(worker node)。控制节点上面运行一个后台程序: Nimbus, 它的作用类似Hadoop里面的JobTracker。Nimbus负责在集群里面分布代...原创 2013-10-10 09:09:20 · 110 阅读 · 0 评论 -
Running topologies on a production cluster
Running topologies on a production cluster is similar to running in Local mode. Here are the steps:1) Define the topology (Use TopologyBuilder if defining using Java)2) Use StormSubmitter to sub...原创 2014-03-20 09:50:38 · 152 阅读 · 0 评论 -
storm教程
基础Storm的组件Storm的属性开始Spouts工作模式本地模式远程模式Hello World Storm检查Java的安装创建工程创建第一个拓扑SpoutBoltsmain方法运行结果总结一个实际的例子附录B基础Storm是一个分布式,可靠的,容错好的,用于...原创 2014-03-20 09:50:09 · 187 阅读 · 0 评论 -
Storm-源码分析- Thrift的使用
1 IDL首先是storm.thrift, 作为IDL里面定义了用到的数据结构和service 然后backtype.storm.generated, 存放从IDL通过Thrift自动转化成的Java代码比如对于nimbus service 在IDL的定义为,service Nimbus { void submitTopology(1: string name, 2: s...原创 2014-03-15 20:25:12 · 135 阅读 · 0 评论 -
Storm入门教程 第五章 一致性事务
第五章 一致性事务Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。 Transactional Topology目前已经不再维护,由Trident来实现事务性topol...原创 2013-10-04 12:06:30 · 121 阅读 · 0 评论 -
storm入门教程 第四章 消息的可靠处理
4.1 简介storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。 4.2 理解消息被完整处理一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。我们来思考一下流式的“单词统计”的例子:storm任务从数据源(...原创 2013-10-04 10:04:25 · 89 阅读 · 0 评论 -
Storm 本地模式运行WordCountTopology
下载Storm,地址为https://github.com/nathanmarz/storm,Storm用于将JAR包和Topology的主类提交给nimbus。本地模式我们只需记住一个命令:storm jar storm-starter-0.0.1-SNAPSHOT-jar-with-dependencies storm.starter.WordCountTopology 下载str...原创 2013-10-13 13:05:01 · 303 阅读 · 0 评论 -
Twitter Storm安装配置(单机版)
storm的官方安装说明(e文):https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster storm的安装分为单机版和集群版,只是配置稍微有点区别,大致一样。 要使用storm首先要安装以下工具: python、zookeeper、zeromq、jzmq、storm 第一步,安装Python2.7.2 wget h...原创 2013-10-14 08:18:08 · 175 阅读 · 0 评论 -
storm & drcp
1.Storm 在taobao的使用情况:We make statistics of logs and extract useful information from thestatistics in almost real-time with Storm. Logs are read from Kafka-likepersistent message queues into spouts...原创 2013-10-14 08:18:26 · 156 阅读 · 0 评论 -
Example Storm Topologies
Learn to use Storm!Table of ContentsGetting startedUsing storm-starter with LeiningenUsing storm-starter with MavenGetting startedPrerequisitesFirst, you need java and git i...原创 2014-04-15 09:37:11 · 147 阅读 · 0 评论 -
storm started
TutorialIn this tutorial, you'll learn how to create Storm topologies and deploy them to a Storm cluster. Java will be the main language used, but a few examples will use Python to ill...原创 2014-04-15 09:36:50 · 572 阅读 · 0 评论 -
Creating a new Storm project
Creating a new Storm projectThis page outlines how to set up a Storm project for development. The steps are:Add Storm jars to classpathIf using multilang, add multilang dir to cla...原创 2014-04-14 09:30:56 · 161 阅读 · 0 评论 -
Setting up development environment
Setting up development environmentThis page outlines what you need to do to get a Storm development environment set up. In summary, the steps are:Download a Storm release , unpack i...原创 2014-04-14 09:29:09 · 173 阅读 · 0 评论 -
用jvisualvm监控远程java程序
jvisualvm是一个JDK自带的java性能监控程序。对于本地监控,直接启动jvisualvm, 在它面板里面就可以看到所有在运行的java程序。但是如果要监控在别的机器上运行的java程序,那么运行的时候要多加几个参数(假设我们的类名字叫Hello):帮助123456java -Dcom.sun.management.jmxrem...原创 2013-10-25 09:16:19 · 238 阅读 · 0 评论 -
Guaranteeing message processing
Guaranteeing message processingStorm guarantees that each message coming off a spout will be fully processed. This page describes how Storm accomplishes this guarantee and what you hav...原创 2013-10-24 09:48:12 · 132 阅读 · 0 评论 -
Install Storm on CentOS
Centos 安装Storm 脚本 保存于此,备忘. 什么是Storm? Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliably process unbounded streams of data, doing for r...原创 2013-10-23 10:14:53 · 114 阅读 · 0 评论 -
Storm-源码分析-Topology Submit-Client
1 Storm Client最开始使用storm命令来启动topology, 如下storm jar storm-starter-0.0.1-SNAPSHOT-standalone.jar storm.starter.WordCountTopology这个storm命令是用python实现的, 看看其中的jar函数, 很简单, 调用exec_storm_class, 其中j...原创 2014-04-01 09:04:58 · 104 阅读 · 0 评论 -
backtype.storm.Config
http://nathanmarz.github.io/storm/doc/backtype/storm/Config.html#TOPOLOGY_MESSAGE_TIMEOUT_SECS原创 2014-03-31 08:56:06 · 427 阅读 · 0 评论 -
storm常见问题解答(转 )
一、我有一个数据文件,或者我有一个系统里面有数据,怎么导入storm做计算?你需要实现一个Spout,Spout负责将数据emit到storm系统里,交给bolts计算。怎么实现spout可以参考官方的kestrel spout实现:https://github.com/nathanmarz/storm-kestrel如果你的数据源不支持事务性消费,那么就无法得到storm提供的可靠处理的保证...原创 2014-03-29 09:34:31 · 112 阅读 · 0 评论 -
storm任务示例
LogProcess.javapackage mytest; import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;i...原创 2013-10-14 08:18:48 · 100 阅读 · 0 评论 -
Storm入门教程 第三章 Storm安装部署步骤
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node)。其分别对应的角色如下:1. 主控节点(Master Node)上运行一个被称为Nimbus的后...原创 2013-10-04 10:00:42 · 105 阅读 · 0 评论 -
Storm入门教程 第二章 构建Topology
2.1 Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfiguration Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在S...原创 2013-10-03 10:19:52 · 128 阅读 · 0 评论 -
Storm应用系列之——Topology部署
本系列属个人原创,转载请注明!原文地址:http://blog.youkuaiyun.com/xeseo/article/details/18219183本系列源码地址: https://github.com/EdisonXu/storm-samples根据前文介绍,我们知道,storm的任务是包装在topology类中,由nimbus提交分配到整个cluster。Topology有两种大...原创 2014-06-07 10:26:06 · 129 阅读 · 0 评论 -
What makes a running topology: worker processes, executors and tasks
Storm distinguishes between the following three main entities that are used to actually run a topology in a Storm cluster:Worker processesExecutors (threads)TasksHere is a simple illustrat...原创 2014-06-07 10:25:41 · 139 阅读 · 0 评论 -
如何“打败”CAP定理(转)
CAP定理指出,一个数据库不可能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition-Tolerance)。 一致性(Consistency)是指执行了一次成功的写操作之后,未来的读操作一定可以读到这个写入的值。可用性(Availability)是 指系统总是可读可写的。Yammer的Coda Hale和Cloudera的Henr...原创 2014-01-17 10:40:05 · 133 阅读 · 0 评论 -
Distributed RPC
Distributed RPCThe idea behind distributed RPC (DRPC) is to parallelize the computation of really intense functions on the fly using Storm. The Storm topology takes in as input a strea...原创 2013-12-23 12:34:59 · 144 阅读 · 0 评论 -
运行MapReduce作业做集成测试
准备工作 以windows环境为例: 安装jdk,设置环境变量JAVA_HOME为jdk安装目录 安装Cygwin,安装时注意选择安装软件包openssh - Net 类,安装完成将cygwin/bin加入环境变量path。 确认ssh。打开cygwin命令行,分别执行以下命令 安装sshd:$ ssh-host-config 启动sshd服务:$ net s...原创 2013-12-17 09:46:31 · 123 阅读 · 0 评论 -
GitHub项目Storm-HBase介绍
Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据: 如果start_timestamp = ...原创 2013-12-06 10:17:36 · 95 阅读 · 0 评论 -
HBase/Hadoop学习笔记 (转)
HBase/Hadoop学习笔记 学习目标: 至少掌握五点: 1. 深入理解HTable,掌握如何结合业务涉及高性能的HTable。 2. 掌握与HBase的交互,通过HBase Shell命令及Java API进行数据的增删改查。 3. 掌握如何用MapReduce分析HBase里的数据 ...原创 2013-12-03 09:41:40 · 225 阅读 · 0 评论 -
Storm Local mode
Local modeLocal mode simulates a Storm cluster in process and is useful for developing and testing topologies. Running topologies in local mode is similar to running topologies on a cl...原创 2013-11-29 09:20:06 · 101 阅读 · 0 评论 -
Twitter Storm源代码分析之TimeCacheMap
TimeCacheMap是Twitter Storm里面一个类, Storm使用它来保存那些最近活跃的对象,并且可以自动删除那些已经过期的对象。这个类设计的很巧妙, 我们来看一下。TimeCacheMap里面的数据是保存在内部变量_bucket里面的:帮助1private LinkedList<HashMap<K, V>> _b...原创 2013-11-20 09:32:20 · 162 阅读 · 0 评论 -
Common patterns
This page lists a variety of common patterns in Storm topologies.Streaming joinsBatchingBasicBoltIn-memory caching + fields grouping comboStreaming top NTimeCacheMap for efficiently kee...原创 2013-11-18 08:33:07 · 262 阅读 · 0 评论 -
eclipse中storm实战入门
功能描述:实时随机输出一字符串。在开发前记得导入storm需要的jar包。1、SimpleSpout类继承BaseRichSpout类,用来产生数据并且向topology里面发出消息:tuple。package com.ljq.helloword;import java.util.Map;import java.util.Random;import ba...原创 2013-11-14 09:51:04 · 343 阅读 · 0 评论 -
HBase入门篇(转)
1-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方...原创 2014-02-07 09:37:47 · 171 阅读 · 0 评论