
Storm
ImproveJin
大龄失业程序员
展开
-
Storm安装部署
1、修改/etc/hosts172.16.3.7 nimbus172.16.3.8 supervisor1172.16.3.9 supervisor2172.16.3.10 supervisor32、集群所有机器安装ZooKeeper,storm需要zk存储数据及进行nimbus、supervisor之间协调 tar xzvf原创 2014-12-08 17:19:24 · 1193 阅读 · 0 评论 -
理解Storm内部的消息缓冲区
当对Storm topology进行性能优化时,理解如何配置和应用Storm内部的消息队列会很有帮助,在这篇文章中我将会解释和展示Storm 0.8/0.9实现worker间通信时worker及内部的thread executor时如何工作的。storm work进程间Message 术语:我将会使用message/tuple,它们代表相同的意思。 当我说internal messagi翻译 2015-03-30 01:08:56 · 6359 阅读 · 0 评论 -
Storm Trident API实践
译在4月10日柏林BigData啤酒节上,Pere介绍了Trident,于此同时,来自Continuum Analytics也介绍了Disco。在Storm环节中大家了解了正确使用Trident的基本知识,包括最基本的API,原理,使用场景以及一个流操作简单例子,这次介绍的框架,一些可执行例子和tweet模拟器可以在github上找到。借助前面提到的github中示例,这篇文章我们将会大致介绍Tri翻译 2016-03-29 16:38:16 · 648 阅读 · 0 评论 -
count distinct是如何实现的
count实现:count(1|*)实现比较容易,只要设置一个计算器,对每条记录依次加1,需要的内存空间为一个Int/Long占用的空间。pike中count 代码:https://github.com/PPTV/Pike/blob/master/pike/src/main/java/com/pplive/pike/function/builtin/Count.java//CountState中使用原创 2017-10-27 12:09:21 · 3240 阅读 · 1 评论 -
基于窗口的实时统计
窗口统计实时数据是无边界的,即不断地有数据输入,但我们的统计一般是有时间范围的,离线统计以年月日为统计周期,最小能到小时周期,如果是分钟甚至秒级别计算,则可认为是实时计算,我们把实时数据流按时间段分割成一个个窗口,则可基于窗口进行数据统计。我司开源Pike支持三种窗口,结合各种UDAF,通过SQL就能能实现各种聚合统计:跳动窗口滑动窗口累计窗口跳动窗口跳动窗口是最直观,最简单的接口,如下图,原创 2017-10-25 13:50:55 · 4459 阅读 · 0 评论 -
开源SQL on Storm解决方案Pike
我司已开源SQL on Storm解决方案Pike, Pike已在生产环节稳定运行,可基于SQL表达实时计算语义,类似Hive之与Hadoop, 极大地简化了各种实时统计需求,即使是类似累计uv/vv/pv这种较复杂的实时统计,通过SQL也能快速实现。Pike GitHub地址: https://github.com/PPTV/Pike/wiki结合公司内部的大数据报表平台BIP,只需在界面上写一个原创 2017-10-25 14:14:58 · 501 阅读 · 0 评论 -
腾讯的SQL on Storm,与Pike设计目标很相似
SQL on Strom1. 摘要:TDW 很好的解决了海量数据离线处理问题,但是在如下场景下: 实时报表,实时监控,实时推荐,实时分析 ,TDW无法满足需求。而storm是应对这些场景的利器,但是storm开发的门槛较高,对于大多数使用TDW的同学来说,若是能有一套支持storm转载 2017-11-16 17:12:26 · 466 阅读 · 0 评论