
大数据 storm
文章平均质量分 95
L-Zhang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Storm配置项详解
Storm配置项详解什么是Storm?Storm是twitter开源的一套实时数据处理框架,基于该框架你可以通过简单的编程来实现对数据流的实时处理变换。Storm的配置文件一般存放在$STORM_HOME/conf下,通常名为storm.yaml,它符合yaml格式要求。配置项详解:以下是从storm的backtype.storm.Config类中搜集的所有storm支持的配置项(Based st转载 2017-07-01 15:51:26 · 2658 阅读 · 0 评论 -
storm记录--6-- Storm的HelloWorld
Storm学习的HelloWorld1、下载Storm-start(https://github.com/nathanmarz/storm-starter/archive/master.zip)2、进入下载目录,对zip文件解压3、进入解压后的文件目录,修改m2-pom.xml(将twitter4j-core和twitter4j-stream替换为下面的部分) org.twitter原创 2017-07-01 15:55:17 · 2569 阅读 · 0 评论 -
storm记录--7-- Maven安装使用
Maven安装使用环境准备:JDK1.6Maven 3.0.4mveclipse8.6.1 (集成mveclipse)安装Maven之前要求先确定JDK已经安装配置完成,Maven是Apache下的一个项目。官网下载Mavenhttp://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.0.4-bin.tar.gz下载完成后解原创 2017-07-01 15:55:21 · 2496 阅读 · 0 评论 -
storm记录--8-- Storm基本API
Streams, 流流作为storm的核心概念, 定义为无限的tuple序列. 什么是tuple? 命名的value序列, 可以理解成Key/value序列, 每个value可以是任何类型, 动态类型不需要事先声明. Tuple在传输中需要序列化和反序列化, storm集成了普通类型的序列化模块, 用户可以自定义特殊类型的序列化逻辑 A tuple is a转载 2017-07-01 15:55:24 · 3247 阅读 · 0 评论 -
storm记录--9- Storm Topology的并发度
Storm Topology的并发度Understanding the parallelism of a Storm topologyhttps://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology概念一个Topology可以包含一个或多个worker(并行的跑在不同的machine转载 2017-07-01 15:55:49 · 2429 阅读 · 0 评论 -
storm记录--10- Storm消息机制
这章讨论Storm's reliability capabilities, 如何保证从spout emit出来的所有tuple都被正确的执行(fully processed)?What does it mean for a message to be "fully processed"?首先的问题是, 什么叫tuple或message被fully processed? 因为tuple被emit出去转载 2017-07-01 15:55:52 · 2729 阅读 · 0 评论 -
storm记录--11- Storm DRPC实战
DRPC ,Distributed Remote Procedure Call RPC本身是个成熟和古老的概念, Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算DRPC, 只是storm应用的一个场景, 并且storm提供相应的编程框架, 以方便程序员提供DRPC server的实现, 并提供对DRPC场景经行封装的Topology转载 2017-07-01 15:56:16 · 2520 阅读 · 0 评论 -
storm记录--12- Storm Transaction 原理+实战
Storm guarantees data processing by providing an at least once processing guarantee. The most common question asked about Storm is "Given that tuples can be replayed, how do you do things like countin转载 2017-07-01 15:56:41 · 2827 阅读 · 0 评论 -
Spark 编程指南
Spark 编程指南简体中文版Introduction快速上手Spark Shell独立应用程序开始翻滚吧!编程指南引入 Spark初始化 SparkSpark RDDs并行集合外部数据集RDD 操作传递函数到 Spark使用键值对TransformationsActionsRDD持久化共享变量从这里开始Spark Streaming原创 2017-09-15 09:29:40 · 619 阅读 · 0 评论 -
storm记录--5-- Storm集群安装
以下是依次需要完成的安装步骤一、安装JDK1.6二、安装Zookeeper三、安装zeromq-2.1.7四、安装jzmq五、安装Python-2.7.2六、安装unzip七、安装Storm一、下载并安装JDK1.6 并设置环境变量,如:export JAVA_HOME=/opt/java6export PATH=$PATH:$JAVA_HOME/bin运行java、javac命令,测试java正原创 2017-07-01 15:55:14 · 2636 阅读 · 0 评论 -
storm记录--4-- Storm适用场景
Storm适用场景流聚合:流聚合就是把两个或多个数据流聚合成一个数据流 -- 基于一些共同的tuple字段。builder.setBolt(5,new MyJoiner(),parallelism) .fieldsGrouping(1,new Fields("joinfield1","joinfield2")) .fieldsGrouping(2,new Fields("joinfield1","原创 2017-07-01 15:55:11 · 2339 阅读 · 0 评论 -
基于分布式流计算平台(storm)的CGI采集与清理系统
CGI好比Web漏洞扫描器的眼睛,只有CGI更全更准,Web漏洞扫描器才能更好的“看到”漏洞,为业务的Web安全保驾护航。本文简单介绍了基于分布式流计算平台Storm的海量CGI采集去重系统——Storm-Cgi。1、开源分布式流计算平台Storm简介 Storm是一个由Twitter公司开源的与Hadoop并驾齐驱的分布式,实时流计算系统。可以简单、可靠的处理大量的数据流。1.1、转载 2017-07-01 15:52:14 · 3013 阅读 · 0 评论 -
storm整理总结
1.Storm概念: storm是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。 650) this.width=650;" src="http:/转载 2017-07-01 15:52:26 · 3302 阅读 · 1 评论 -
storm问题总结
storm问题总结(持续更新)1. yaml跟我们一般用的属性配置文件有所不同, 它的要求更严格一些, 因此在往conf/storm.yaml中添加配置的时候必须注意.比如必须注意开始位置和冒号后面的空格, 否则配置不会生效. 关于yaml相关的资料, 网上有很多资料可以参考如何检查配置是否生效, 可以使用命令: storm localconfvalue 配置关键字但是这个命令只能在nimbus上原创 2017-07-01 15:53:48 · 3067 阅读 · 0 评论 -
Storm日常操作命令
1.启动storm的各个进程:nohup storm nimbus &nohup storm supervisor &nohup storm ui &2.启动storm的topology:storm jar stormtopology10.jar com.hc360.storm.BusinessTopology businessTopology 1;3.杀掉storm进程:storm的进程可以通过原创 2017-07-01 15:53:57 · 2680 阅读 · 0 评论 -
Storm使用到的相关技术总结
Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zookeeper集群Zookeeper是一个针对大型分布式系统的可靠协调服务系统,其采用类似Unix文件系统树形层次结构的数据模型(如:/zoo/a,/zoo/b),节点内可存储少量数据(Zookeepr的高可靠转载 2017-07-01 15:54:00 · 2400 阅读 · 0 评论 -
storm记录--1-- 实时计算系统
实时计算系统实时计算场景:伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜原创 2017-07-01 15:55:02 · 2394 阅读 · 0 评论 -
storm记录--2-- Storm是什么
Storm是什么:如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理程序变得非常地简单和优美。对比Hadoop的批处理,Storm是个实时的、分布式以及具备高容错的计算原创 2017-07-01 15:55:05 · 2379 阅读 · 0 评论 -
storm记录--3--Storm的基本概念
首先我们通过一个 storm 和hadoop的对比来了解storm中的基本概念。HadoopStorm系统角色JobTrackerNimbusTaskTrackerSupervisorChildWorker应用名称JobTopology组件接口Mapper/ReducerSpout/Bolt接下来我们再来具体看一下这些概念。a、Nimbus:负责资源分配和任务调度。b、Supervisor:负责接原创 2017-07-01 15:55:08 · 2499 阅读 · 0 评论 -
Strom官网信息
Strom官网首页:http://storm.apache.org/index.htmlStorm集群创建:http://storm.apache.org/releases/current/Setting-up-a-Storm-cluster.htmlStorm包下载:http://storm.apache.org//downl原创 2017-09-15 09:51:32 · 1271 阅读 · 0 评论