
storm
文章平均质量分 65
caodaoxi
这个作者很懒,什么都没留下…
展开
-
Clojure入门教程
转载自网址: http://xumingming.sinaapp.com/302/clojure-functional-programming-for-the-jvm-clojure-tutorial/内容列表简介条件处理引用类型函数式编程迭代编译Clojure概述递归自动化测试开始吧谓词编辑器和转载 2012-11-18 00:32:07 · 2268 阅读 · 0 评论 -
小议Storm输出到hdfs的各种方案
小议Storm输出到hdfs的各种方案(byjacobzengfromWeibo)1)方案较多,从数据收集角度分为:NFS收集、Scribe/Flume等收集、不收集(多个Bolt并行写入),从数据写入角度分为:分段写入本地文件后Put、Fuse-HDFS写入、dfsCLient写入,收集和写入可以组合为多种方案;显然NFS在收集方面无优势,可以排除;另外Fuse-HDFS方案依赖转载 2013-05-16 00:50:42 · 1169 阅读 · 0 评论 -
Storm-源码分析-Topology Submit-Client
转载自:http://www.cnblogs.com/fxjwind1 Storm Client 最开始使用storm命令来启动topology, 如下storm jar storm-starter-0.0.1-SNAPSHOT-standalone.jar storm.starter.WordCountTopology这个storm命令是用python实现的,转载 2013-06-10 20:57:49 · 879 阅读 · 0 评论 -
Stormstarter-RollingTopWords
-计算top N words的topology, 用于比如trending topics or trending images on Twitter.实现了滑动窗口计数和TopN排序, 比较有意思, 具体分析一下代码 Topology这是一个稍微复杂些的topology, 主要体现在使用不同的grouping方式, fieldsGrouping和globalGroup转载 2013-06-10 20:55:13 · 870 阅读 · 0 评论 -
ZeroMQ的学习和研究
分享到:一、ZeroMQ的背景介绍引用官方的说法: “ZMQ(以下ZeroMQ简称ZMQ)是一个简单好用的传输层,像框架一样的一个socket library,他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库,可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是“成为标准网络协议栈的一部分,之后进入Linux内核”。现在还未看到它们的成功。但是,它转载 2013-06-13 18:59:58 · 658 阅读 · 0 评论 -
Twitter Storm: Transactional Topolgoy简介
转载自:http://xumingming.sinaapp.com/736/twitter-storm-transactional-topolgoy/概述Storm通过保证每个tuple至少被处理一次来提供可靠的数据处理。关于这一点最常被问到的问题就是“既然tuple可能会被重写发射(replay), 那么我们怎么在storm上面做统计个数之类的事情呢?storm有可能会重复计数吧?”转载 2013-06-08 18:52:17 · 716 阅读 · 0 评论 -
storm介绍
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳转载 2013-06-08 13:45:16 · 561 阅读 · 0 评论 -
Yahoo!开源运行在Hadoop上的Storm——Storm-YARN
Apache Hadoop是大数据处理与批处理的事实标准,而Twitter Storm则很快地成为实现大规模事件处理的一种标准。遗憾的是,直到最近,实现Storm和Hadoop所需要的集群在物理上仍然有所不同。上周,Yahoo!宣布开放运行在Hadoop集群上的Storm——即Storm-YARN的源代码。据Yahoo!介绍,相对于隔离的集群,实时处理(Storm)和批处理的结合具有很转载 2013-06-22 15:15:25 · 825 阅读 · 0 评论 -
storm-kafka-plus源码阅读
ZkState.java 主要是维护了与zookeeper之间的连接,以及如果对zk节点数据进行序列化和反序列化.DynamicBrokersReader.java 维护了有一个与zk之间的连接,维护了topic,zkroot.获取分区信息. getBrokerInfo获取分区与partition leader的之间关系.返回类型为GlobalPartitionInformation原创 2014-03-05 23:57:01 · 764 阅读 · 0 评论 -
storm on yarn 如何支持 storm 0.9.2
storm on yarn的git地址:https://github.com/yahoo/storm-yarn.git原创 2014-10-29 17:11:43 · 1415 阅读 · 0 评论 -
Twitter Storm 序列化
序列化这篇文章是关于序列化方法在storm 0.6.0版及之前版本中是如何工作的。0.6.0版之前,storm使用一种不同的序列化方法,参见 Serialization (prior to 0.6.0)。元组可由任何一种类型的对象组成。由于storm是一个分布式系统,当对象在任务之间传递时,它需要知道如何序列化和反序列化这些对象。Storm使用Kryo进行序列化。Kryo是一个灵活快速...原创 2012-04-16 10:05:52 · 96 阅读 · 0 评论 -
Twitter Storm 安装实战
实际上安装Twitter Storm是上周三的事情了,周三的时候安装了一个单机版的,用WordCount跑了一下,感觉还不错。周四试着在集群上安装,碰到了一些问题,一直折腾到周五,留了个尾巴(没有做测试),这周一终于跑了WordCount,先开始出了一些问题,查了很多资料终于解决了。一直想要把这个过程记录一下,一直都比较犯懒,今天因为也要写文档,但还没有什么特别好的思路,所以先把整个安装过...原创 2012-08-23 14:49:31 · 241 阅读 · 0 评论 -
addlog
addlog原创 2013-05-19 23:33:26 · 709 阅读 · 0 评论 -
KAFKA分布式消息系统
http://blog.chinaunix.net/uid-20196318-id-2420884.htmlKafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,转载 2013-05-28 19:01:26 · 552 阅读 · 0 评论 -
storm简介
场景伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想转载 2013-05-09 23:03:07 · 478 阅读 · 0 评论 -
storm的使用笔记
嗯,随时记随时更新。1. 关于log用storm jar ...将项目提交给storm集群后,想查看本项目的log信息,要到supervisor机器的:storm安装路径/logs/worker-number.log(其中的number视实际情况而定)中查看。如果是用daemontools启动的storm,daemontools监控的目录是/service/storm,转载 2013-05-22 17:36:25 · 1262 阅读 · 0 评论 -
storm-nimbus-hdfs
https://github.com/Frostman/storm-nimbus-hdfs/tree/master/srchttps://github.com/jerrylam/storm-hdfs原创 2013-05-16 01:05:51 · 674 阅读 · 0 评论 -
Storm数据流模型的分析及讨论
http://www.cnblogs.com/panfeng412/category/367117.html本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据流模型上的区别之处。Storm基本概念Storm是一个开源的实时计算系统,它提供了一系列的基本元素用于进转载 2013-05-02 22:53:39 · 648 阅读 · 0 评论 -
Flume日志收集
一、Flume介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。设计目标:(1) 可靠性当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to-end(收到数据agent首先转载 2013-05-16 23:06:58 · 603 阅读 · 0 评论 -
linkedin高吞吐量分布式消息系统kafka使用手记
本文链接: http://www.54chen.com/java-ee/linkedin-kafka-usage.htmlkafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafk转载 2013-05-03 16:23:23 · 886 阅读 · 0 评论 -
Kestrel and Storm
This page explains how to use to Storm to consume items from a Kestrel cluster.PreliminariesStormThis tutorial uses examples from the storm-kestrel project and the storm-starter project. It'转载 2013-05-07 10:47:38 · 1084 阅读 · 0 评论 -
xmemcached
http://code.google.com/p/xmemcached/wiki/User_Guide_zh原创 2013-05-07 10:44:55 · 653 阅读 · 0 评论 -
Kestrel持久化队列服务器
http://www.5ishare.com/tech/program/283112.shtmlnet.rubyeye.xmemcached.test.unittest.KestrelClientUnitTest http://code.google.com/p/xmemcached/wiki/User_Guide_zh教程 使用xmemcached 进行连接http://转载 2013-05-07 10:45:31 · 1192 阅读 · 0 评论 -
storm集群的监控
所谓兵马未动,粮草先行,准备将storm用在某个项目中做实时数据分析。无论任何系统,一定要有监控系统并存,当故障发生的时候你能第一个知道,而不是让别人告诉你,那处理故障就很被动了。 因此我写了这么个项目,取名叫storm-monitor,放在了github上 https://github.com/killme2008/storm-monitor 主要功能如下:1转载 2013-05-08 11:30:54 · 706 阅读 · 0 评论 -
Storm源码浅析之topology的提交
最近一直在读twitter开源的这个分布式流计算框架——storm的源码,还是有必要记录下一些比较有意思的地方。我按照storm的主要概念进行组织,并且只分析我关注的东西,因此称之为浅析。 一、介绍 Storm的开发语言主要是Java和Clojure,其中Java定义骨架,而Clojure编写核心逻辑。源码统计结果:<!–Code highlighting p转载 2013-05-08 11:41:51 · 630 阅读 · 0 评论 -
witter Storm 安装实战
实际上安装Twitter Storm是上周三的事情了,周三的时候安装了一个单机版的,用WordCount跑了一下,感觉还不错。周四试着在集群上安装,碰到了一些问题,一直折腾到周五,留了个尾巴(没有做测试),这周一终于跑了WordCount,先开始出了一些问题,查了很多资料终于解决了。一直想要把这个过程记录一下,一直都比较犯懒,今天因为也要写文档,但还没有什么特别好的思路,所以先把整转载 2013-05-08 13:03:50 · 675 阅读 · 0 评论 -
Error on initialization of server mk-worker (stormconf.ser is missing)
Error on initialization of server mk-worker (stormconf.ser is missing)2 名作者发布了 13 个帖子 Moshe Bixenshpaner12-8-10转载 2013-05-08 19:32:49 · 2719 阅读 · 1 评论 -
storm版本
zookeeper:http://archive.apache.org/dist/zookeeper/zookeeper-3.3.3/zookeeper-3.3.3.tar.gzzermq:http://download.zeromq.org/zeromq-2.1.7.tar.gzstorm:wget https://github.com/nathanmarz/storm/arch原创 2013-05-08 22:11:30 · 616 阅读 · 0 评论 -
storm的日志问题
由于目前的流计算项目要加监控和报警,因此规范的日志是必须的条件。测试了以后才发现storm的日志原来有个很大的坑。基本问题如下:storm采用的也是log4j去打印日志,默认的日志配置文件是storm安装目录下面的storm/log4j/storm.log.properties。而且文件名会以work+端口号来区分,个人感觉非常的不好排查问题。因此就想在应用中使用自己的log4j文件,这样st转载 2013-05-22 17:34:31 · 7765 阅读 · 1 评论 -
storm异常
★ yaml跟我们一般用的属性配置文件有所不同, 它的要求更严格一些, 因此在往conf/storm.yaml中添加配置的时候必须注意. 比如必须注意开始位置和冒号后面的空格, 否则配置不会生效. 关于yaml相关的资料, 网上有很多资料可以参考 如何检查配置是否生效, 可以使用命令: storm localconfvalue 配置关键字 但是这个命令只能在nimbus上生效, 在supervi...原创 2014-01-26 16:33:13 · 215 阅读 · 0 评论