
流式计算
z_l_l_m
这个作者很懒,什么都没留下…
展开
-
Twitter Storm简介
过去的十年是数据处理变革的十年, MapReduce, Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统 — 它们设计的目的也不是为了实时计算。没有什么办法可以简单地把hadoop变成一个实时计算系统。实时数据处理系统和批量数据处理系统在需求上有着本质的差别。然而大规模的实时数据处理已经越来越成为一种业务需求了, 而缺少一个“实时转载 2012-11-27 21:11:50 · 960 阅读 · 0 评论 -
GitHub项目Storm-HBase介绍
最近完成了一个GitHub项目:Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据:如果转载 2012-12-18 17:49:27 · 880 阅读 · 0 评论 -
Storm常见模式——批处理
Storm对流数据进行实时处理时,一种常见场景是批量一起处理一定数量的tuple元组,而不是每接收一个tuple就立刻处理一个tuple,这样可能是性能的考虑,或者是具体业务的需要。例如,批量查询或者更新数据库,如果每一条tuple生成一条sql执行一次数据库操作,数据量大的时候,效率会比批量处理的低很多,影响系统吞吐量。当然,如果要使用Storm的可靠数据处理机制的话,应该使用容器将这些转载 2012-12-18 17:44:35 · 1160 阅读 · 0 评论 -
Storm集群安装部署步骤【详细版】
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中转载 2012-12-18 17:47:26 · 769 阅读 · 0 评论 -
Storm常见模式——求TOP N
Storm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算TOP N,然后每隔一定时间间隔输出实时计算后的TOP N结果。流式数据的TOP N计算的应用场景很多,例如计算twitter上最近一段时间内的热门话题、热门点击图片等等。下面结合Storm-Starter中的例子,介绍一种可以很容易进行扩展的实转载 2012-12-18 17:45:14 · 1031 阅读 · 0 评论 -
Storm常见模式——TimeCacheMap
Storm中使用一种叫做TimeCacheMap的数据结构,用于在内存中保存近期活跃的对象,它的实现非常地高效,而且可以自动删除过期不再活跃的对象。TimeCacheMap使用多个桶buckets来缩小锁的粒度,以此换取高并发读写性能。下面我们来看看TimeCacheMap内部是如何实现的。1. 实现原理桶链表:链表中每个元素是一个HashMap,用于保存key,value格式的数据。转载 2012-12-18 17:42:03 · 692 阅读 · 0 评论 -
Storm常见模式——分布式RPC
本文翻译自:https://github.com/nathanmarz/storm/wiki/Distributed-RPC,作为学习Storm DRPC的资料,转载必须以超链接形式标明文章原始出处及本文翻译链接。分布式RPC(distributed RPC,DRPC)用于对Storm上大量的函数调用进行并行计算过程。对于每一次函数调用,Storm集群上运行的拓扑接收调用函数的参数信息作为输入转载 2012-12-18 17:40:56 · 868 阅读 · 0 评论 -
如何构建高效的storm计算模型
计算机制简介 Storm采用流式计算的模型,和shell类似让数据在一个个“管道”中进行处理。Spout负责从数据源拉取数据,相当于整个系统的生产者。Bolt负责消费数据并将tuple发送给下一个计算单元。Bolt可以接受多个spout和bolt的数据。每个spout,bolt可以设置并行度excuter相当于多进程,每个excuter可以设置多个task shuff原创 2012-12-03 18:28:54 · 6517 阅读 · 1 评论 -
Storm常见问题及解决方法收集【持续更新中】
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/23/storm-common-issues-and-solutions-summarizing.html以下是对个人在使用Storm过程中遇到的一些常见问题及解决方法的整理,其中部分问题的解决方法来自转载 2012-12-18 17:48:55 · 972 阅读 · 0 评论 -
Storm常见模式——流聚合
流聚合(stream join)是指将具有共同元组(tuple)字段的数据流(两个或者多个)聚合形成一个新的数据流的过程。从定义上看,流聚合和SQL中表的聚合(table join)很像,但是二者有明显的区别:table join的输入是有限的,并且join的语义是非常明确的;而流聚合的语义是不明确的并且输入流是无限的。数据流的聚合类型跟具体的应用有关。一些应用把两个流发出的所有的tupl转载 2012-12-18 17:45:50 · 1177 阅读 · 0 评论 -
Storm常见模式——BasicBolt
Storm中的很多Bolt都有一个最常见的处理步骤:读入一个tuple;根据这个输入tuple,提取后发射0个,1个或多个tuple;最后,通过ack操作确认这个tuple被成功处理。按照上述处理步骤,依次处理发向这个Bolt的各个tuple元组。这种模式可以实现像ETL这类的简单函数或过滤器功能,Storm中专门为这种模式封装了相应接口:IBasicBolt。BaseBasicB转载 2012-12-18 17:43:56 · 708 阅读 · 0 评论 -
storm官方wiki快速通道
官方的wiki: https://github.com/nathanmarz/storm/wiki storm简介:https://github.com/nathanmarz/storm/wiki/Tutorial storm中如何保证消息被处理https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-p原创 2012-12-03 11:41:23 · 985 阅读 · 0 评论 -
流式计算系统分析
2011年度的Hadoop China大会刚刚落下帷幕,这次会议的一个热点议题就是数据流计算,在MapReduce计算模型风靡全球之后,Stream Processing将会是下一个研究热点,无论是在工业界还是学术界。本文从深层次对各种典型的数据流计算系统架构及其基于的设计理念进行剖析。背景与动机背景随着当今社会数据量的日益膨胀,普通服务器组成的计算集群用于处理各种数据应用。在工业领域转载 2012-11-29 00:09:42 · 3863 阅读 · 0 评论 -
现今实时流计算模型
1.引言近年来,一种新的数据密集型应用已经得到了广泛的认同,这类应用的特征是:数据不宜用持久稳定关系建模,而适宜用瞬态数据流建模。这些应用的实例包括金融服务、网络监控、电信数据管理、Web应用、生产制造、传感检测等等。在这种数据流模型中,单独的数据单元可能是相关的元组(tuples),例如网络测量、呼叫记录、网页访问等产生的数据。但是,这些数据以大量、快速、时变(可能是不可预知)的数据流持转载 2012-11-27 22:30:29 · 9275 阅读 · 1 评论 -
Storm数据流模型的分析及讨论
本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据流模型上的区别之处。Storm基本概念Storm是一个开源的实时计算系统,它提供了一系列的基本元素用于进行计算:Topology、Stream、Spout、Bolt等等。在Storm中,一个实时应用的计算任务被打转载 2012-12-18 17:49:58 · 891 阅读 · 0 评论