
storm
文章平均质量分 55
codemosi
hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人。
干一件事,干好一件事!
QQ :1606588828
展开
-
Storm-0.9.0.1版本安装部署(转载)
http://blog.youkuaiyun.com/luobailian/article/details/42423799?ref=myreadTwitter Storm更新0.9.0.1之后,安装部署变得容易得多了,比起Storm0.8.x的版本,Storm少了zeromq和jzmq的安装,也省去了很多编译这些插件时出现的bug。1、Storm-0.9.0.1 版本的亮点:1.转载 2015-01-07 16:04:04 · 408 阅读 · 0 评论 -
04 Trident聚合
•聚合是流计算的常见场景。Trident提供了两种聚合方式 1:Aggregate 2:partitionAggregate•三种聚合器来实现聚合任务。如sum 1:CombinerAggregator 2:ReducerAggregator 3: Aggregator这3个聚合器一般是,配合groupBy()来做分区聚合比如:做如下聚合,每个手机号的原创 2015-04-11 18:46:01 · 715 阅读 · 0 评论 -
03 Function
•Filter只用作简单的true ,false来过滤数据,其他在trident上的工作全部通过function来完成,比如给所有号码后面加上你好。•Function是一种更为通用的处理模型。可以把function看出storm的bolt。--------------------------------------配套视频--------------------------------原创 2015-04-11 18:44:31 · 430 阅读 · 0 评论 -
01 stream
•TridentTopology,trident编程模型的拓扑,接入spout,创建stream。•可接入3种不同类型的4个spout。2个spout是同一个类型。 1非事务类型:IBatchSpout 2事务:ITridentSpout和IPartitionedTridentSpout 3非透明事务:IOpaquePartitionedTridentSpout原创 2015-04-11 18:37:29 · 554 阅读 · 0 评论 -
02 Filter
•stream使用each遍历处理批次中的每个tuple时,each支持两种处理方式。1:filter,2:function•Filter通过返回true,和false。来判断是否对信息过滤。•如在电信用户的聚合统计中。可以使用filter只保留189开头的号码,即返回true。其他都返回false。----------------------------------------配套视原创 2015-04-11 18:41:30 · 471 阅读 · 0 评论 -
实时计算在点评(转载)
流式计算和实时计算在点评的应用和推广,一直致力于大数据和分布式系统的研究和应用。目前主要从事NoSQL、实时分布式系统的研究与开发。著有《Storm技术内幕与大数据实践》一书。以下为王新春老师最近在微信群直播全文记录。实时计算在点评的使用场景类别一:Dashboard、实时DAU、新激活用户数、实时交易转载 2015-06-25 19:42:45 · 756 阅读 · 0 评论 -
storm读kafka数据源保证消息不丢失的方法
ack设置成-1 unclean设置为false就不丢数了,除非所有集群都同时挂,磁盘缓存没刷新再设置个mini isr=2更大保证一下如果你们ack设置的默认为1,那么切换leader的时候丢数很正常看你们的需求了,吞吐量跟性能做个平衡还有topic级别两个配置ack是生产者的unclean、mini isr是top原创 2015-07-10 19:33:11 · 2569 阅读 · 0 评论 -
04storm 源码阅读 storm的进程间消息通信实现clojure端 生成带netty能力的线程
;; Licensed to the Apache Software Foundation (ASF) under one;; or more contributor license agreements. See the NOTICE file;; distributed with this work for additional information;; regarding copy原创 2015-07-12 19:11:59 · 819 阅读 · 0 评论 -
02 storm 源码阅读 storm的进程间消息通信实现netty client实现
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding原创 2015-07-12 19:08:40 · 5480 阅读 · 0 评论 -
01 storm 源码阅读 storm的进程间消息通信实现netty server实现
/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding原创 2015-07-12 19:06:33 · 1321 阅读 · 0 评论 -
03 storm 源码阅读 storm的进程间消息通信实现clojure端 加载java端netty能力
;; Licensed to the Apache Software Foundation (ASF) under one;; or more contributor license agreements. See the NOTICE file;; distributed with this work for additional information;; regarding copy原创 2015-07-12 19:10:33 · 814 阅读 · 1 评论 -
实时系统HBase读写优化--大量写入无障碍
在使用hbase过程中发现在写入hbase的数据量很大时,经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的,一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。1.禁止Major Compaction在hbase进行Major Compaction时,该region将合并所有的storefile,因此整个region都不转载 2015-09-23 16:11:46 · 1440 阅读 · 0 评论 -
tune performance
The following ending with ‘~’ should override the default value.Inter-worker:Netty.server.thread(Netty-server-localhost-670X-worker-N)[storm.messaging.netty.server_worker_threads] [NioServerSock转载 2016-03-29 21:25:58 · 629 阅读 · 0 评论 -
05 Trident 状态(state)
•持久化,也是流计算模型中的核心问题。Trident提供了state的机制,完成tuple的增删改查。当然没有删。••1 增。 •stream TridentState state = stream.persistentAggregate(stateFactory, agg,Fields) // aggState:Snapshottable•groupStr原创 2015-04-11 18:47:39 · 880 阅读 · 1 评论 -
06 Trident DRPC
•RPC,远程方法调用。通过发布一个服务•1:Trident上的drpc,2:spout和bolt上drpc。 •eclipse本地调试模式 TridentTopology.newDRPCStream(function,ILocalDRPC) ILocalDRPC.execute(function,args);•部署到storm环境后 TridentTopolog原创 2015-04-11 18:49:09 · 1022 阅读 · 0 评论 -
Trident API(转载)
一、概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架。 具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data)、通过Storm对消息进行计算聚合等预处理、把处理结果持久化到NoSQL数据库或者HDFS做进一步深入分析。1.2 T转载 2014-12-19 19:57:03 · 539 阅读 · 0 评论 -
state(转载)
Trident在读写有状态的数据源方面是有着一流的抽象封装的。状态既可以保留在topology的内部,比如说内存和HDFS,也可以放到外部存储当中,比如说Memcached或者Cassandra。这些都是使用同一套Trident API。Trident以一种容错的方式来管理状态以至于当你在更新状态的时候你不需要去考虑错误以及重试的情况。这种保证每个消息被处理有且只有一次的原理会让你更放心的转载 2015-01-10 00:22:43 · 441 阅读 · 0 评论 -
Storm 和JStorm
JStorm 比Storm更稳定,更强大,更快,Storm上跑的程序,一行代码不变可以运行在JStorm上。直白的将JStorm是阿里巴巴的团队基于Storm的二次开发产物。阿里拥有自己的实时计算引擎类似于hadoop 中的MR开源storm响应太慢开源社区的速度完全跟不上Ali的需求降低未来运维成本提供更多技术支持,转载 2015-03-02 09:23:23 · 832 阅读 · 0 评论 -
电商实时pv和 uv--storm实时方案
1 项目背景 : 做为电子商务的实时统计分析系统,如何对实时产生的日志进行统计和分析,将是目前 云商的一大热点。2 系统流程: 如下表: 各个类型的的数据日志,包括,点击,点赞,购买,评论等消息生成来源,通过kafka日志收集转载 2015-03-02 09:28:57 · 5398 阅读 · 1 评论 -
01storm实现机器学习的可能探索-启动
这么长时间使用storm后,和对机器学习的分类聚类回归推荐等算法的熟悉后,试着尝试把storm的实时性能够实现机器学习算法。mahout和mllib的都是离线批量。希望能实现实时的数据挖掘。原创 2015-03-03 17:04:55 · 1018 阅读 · 0 评论 -
02storm聚类尝试kmeans
先挑个最简单的算法尝试01聚类kmeans算法和kmeans例子演示K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心原创 2015-03-04 09:09:36 · 1316 阅读 · 0 评论 -
storm应用场景(转载的)
应用场景:•精准推荐•广点通广告推荐•新闻推荐•视频推荐•游戏道具推荐•实时分析•微信运营数据门户•效果统计•订单画像分析•实时监控•实时监控平台•游戏内接口调用转载 2015-03-09 14:09:03 · 514 阅读 · 0 评论 -
jstorm0.9.6.2安装(转载的)
JStorm是由Alibaba开源的实时计算系统,它使用Java重写了Apache Storm(使用Clojure+Java混编),而且在原来的基础上做了很多改进的地方。使用Java重写,对于使用Java的开发人员来说,可以通过阅读源码来了解JStorm内部的原理和实现,而且可以根据运行错误日志来排查错误。下面通过安装配置,以及简单使用的验证,来说明JStorm宏观上与Apache Storm转载 2015-03-09 18:45:05 · 925 阅读 · 0 评论 -
阿里巴巴实时数据公共层助力双11媒体直播
作者: 来源:CNET科技资讯网 时间:2014-11-21 15:45:25关键字:阿里巴巴 实时数据 今年的双11,相信大家对上面央视新闻图片中的数字大屏不会陌生了,除了媒体之外,在阿里巴巴西溪园区的媒体报告厅、指挥部等“要地”都有它的身影。当天,这一大屏在全球400多家媒体前面惊艳出场,并完美谢幕。阿里巴巴数据技术与产品部的实时数据公共层团队承担了转载 2015-03-23 15:23:48 · 683 阅读 · 0 评论 -
使用Storm实现实时大数据分析
摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。优快云在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获转载 2015-03-23 14:27:09 · 626 阅读 · 0 评论 -
storm shell 命令
提交Topologies命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】样例:storm jar /storm-starter.jar storm.starter.WordCountTopology wordcountTop#提交storm-starter.jar到远程集群,并启动wordcountTop拓扑。停止Topologies命原创 2015-05-14 18:34:38 · 761 阅读 · 0 评论 -
Storm UI 参数
Storm UI本文主要解释下storm ui上各项属性的含义。1. mainpage 首页主要分为3块: a. Cluster Summary Nimbus uptime: nimbus的启动时间 Supervisors: storm集群中supervisor的数目 used slots: 使用了的slots数转载 2015-05-26 16:59:50 · 635 阅读 · 0 评论 -
2016年大战双11 总结
今年双11,0点干通宵,PD直接倒地,老大也战斗到凌晨,全部帐篷解决温饱问题。各位都非常棒。CTO还来慰问了,无耻的合了个照,来年再战。实在太累,回去睡觉,总结明日再写。最后招聘 java+storm 开发人员。简历发到QQ:1606588828,欢迎新队友,共战亿万级实时计算。原创 2016-11-11 20:56:49 · 1190 阅读 · 0 评论