
Storm
文章平均质量分 74
u013063153
这个作者很懒,什么都没留下…
展开
-
理解Storm并发
原文:http://www.cnblogs.com/Jack47/p/understanding_the_parallelism_of_a_storm_topology.html注:本文主要内容翻译自understanding-the-parallelism-of-a-storm-topology本篇文章介绍了Storm拓扑的并发模型。介绍了Worker进程,Executor(线程)和转载 2017-06-17 19:58:48 · 447 阅读 · 0 评论 -
KafkaSpout 浅析
原文:http://www.cnblogs.com/cruze/p/4241181.html 最近在使用storm做一个实时计算的项目,Spout需要从 KAFKA 集群中读取数据,为了提高开发效率,直接使用了Storm提供的KAFKA插件。今天抽空看了一下KafkaSpout的源码,记录下心得体会。 KafkaSpout基于kafka.javaapi.consum转载 2017-06-29 17:03:18 · 889 阅读 · 0 评论 -
Storm 反压机制 back pressure设置失效
【阿里的JStorm的GitHub上的原话】当spout降速后, 发送过阻塞命令的task 检查队列水位连续4次低于0.05时, 发送解除反应命令到topology master, topology master 发送提速命令给所有的spout, 于是spout 每发送一个tuple的等待时间--, 当spout的等待时间降为0时, spout会不断发送“解除限速”命令给 topology m原创 2017-06-29 21:34:21 · 3186 阅读 · 0 评论 -
Storm简介
storm是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,由Twitter开源,官网http://storm.apache.org/。Storm实时低延迟,主要有两个原因:– storm进程是常驻内存的,不像hadoop里面是不断的启停的,就没有不断启停的开销。–原创 2017-06-25 15:41:37 · 439 阅读 · 0 评论 -
Storm后台启动
原文:http://www.it610.com/article/1961490.htm启动Storm的所有后台进程。和Zookeeper一样,Storm也是快速失败(fail-fast)的系统,这样Storm才能在 任意时刻被停止,并且当进程重启后被正确地恢复执行。这也是为什么Storm不在进程内保存状态的原因,即使Nimbus或Supervisors被重 启,运行中的Topologi转载 2017-06-21 14:43:31 · 4305 阅读 · 0 评论 -
Storm安装与启动
1. 部署依赖环境–Java 6+–Python 2.6.6+2. 部署zookeeper–3.4.5+–ZK为什么要用3.4.5,因为它支持磁盘的快照和namenode的定期删除,避免磁盘被打满3. 分发storm包–0.9.4+4. 配置storm–修改storm.yaml配置文件5- 启动storm具体步骤如下:分发Storm到所有原创 2017-06-25 16:03:10 · 3287 阅读 · 0 评论 -
Storm计算模型
DAG计算模型,一个阶段接另一个阶段再接另一个阶段,在这个有向无环图里面可以灵活的组合,DAG是由Spout和bolt组合起来的,它们都是节点,是stream数据流,数据流里面的数据单元就是Tuple。Storm里面关键的组件,有nimbus/supervisor/worker/executor,另外storm还用到了外围的组件zookeeper来存储协调数据。在Storm中最重要的就原创 2017-06-25 17:56:05 · 932 阅读 · 0 评论 -
Storm DRPC
什么是DRPC–RPC(Remote Procedure Call Protocol)——远程过程调用协议–Distributed RPC:rpc请求流式、并进行处理–RPC请求参数当做输入流,结果当做输出流–利用storm的分布式进行处理机制和能力–借助DRPC server接收请求、返回相应Storm只能获取数据,不能接请求和发响应,所以这里借助一个DRPC Serve原创 2017-06-25 19:06:49 · 674 阅读 · 0 评论 -
Storm配置手册
配置选项名称配置选项作用topology.max.task.parallelism每个Topology运行时最大的executor数目topology.workers每个Topology运行时的worker的默认数目,若在代码中设置,则此选项值被覆盖storm.zookeeper.servers原创 2017-06-25 19:08:32 · 371 阅读 · 0 评论 -
Storm的Spout和Bolt中的方法
一、Spout中的方法1.open当一个Task被初始化的时候会调用此open方法。一般都会在此方法中对发送Tuple的对象SpoutOutputCollector和配置对象TopologyContext初始化。2.declareOutputFields 此方法用于声明当前Spout的Tuple发送流。Stream流的定义是通过OutputFieldsD原创 2017-06-25 19:24:00 · 7732 阅读 · 0 评论 -
Storm性能优化
原文:http://www.jianshu.com/p/f645eb7944b0目录场景假设调优步骤和方法Storm 的部分特性Storm 并行度Storm 消息机制Storm UI 解析性能优化场景假设在介绍 Storm 的性能调优方法之前,假设一个场景:项目组部署了3台机器,计划运行且仅运行 Storm(1.0.1) + Kafka(0.9.0.1)转载 2017-06-28 10:38:29 · 1012 阅读 · 0 评论 -
Storm Topology 一种优化思路
原文:https://my.oschina.net/jerrysearch/blog/201373谈谈分布式环境一种优化storm topology的思路,肯定不是优化包含的全部,但一定是其中一部分。先假设一种环境,三台机器,cpu core 4,net KM 网topologycomponentnameexecutor latency(ms)s转载 2017-06-28 11:18:02 · 408 阅读 · 0 评论 -
Storm并发模型及ACK机制处理
从大到小的话我们看它有这么5个层次,最简单的storm是个集群,cluster是个层次,第二个层次就是有比较明确的意义了,就是supervisor,supervisor对应的层级就是一个个的host,就是一个个的node,就是一个机器这个级别的,然后一个机器它又有很多的worker,worker其实就是对应process级别的,就是进程级别的,机器上跑几个进程,规定4个worker,就4个进程,每原创 2017-06-25 18:52:56 · 1901 阅读 · 0 评论 -
Storm原理
Nimbus –集群管理 –调度topologySupervisor –启停workerWorker –一个JVM进程资源分配的单位 –启动executorExecutor –实际干活的线程Zookeeper - 存储状态信息,调度信息,心跳信息等Nimbus:相当于master,storm是master/slave的架构 –原创 2017-06-25 17:31:04 · 511 阅读 · 0 评论 -
Spark Streaming和Storm对比
Spark StreamingStormData sourcesHDFS, HBase, Cassandra, KafkaHDFS, Base, Cassandra, KafkaResource ManagerYARN, MesosYARN, MesosLatency原创 2017-07-16 14:19:20 · 1537 阅读 · 0 评论 -
Storm DRPC示例
Local 模式:public static void main(String[] args) { TopologyBuilder builder = new TopologyBuilder(); LocalDRPC drpc = new LocalDRPC(); DRPCSpout spout = new DRPCSpout("exclamatio原创 2017-06-01 22:48:02 · 444 阅读 · 0 评论 -
Storm的ack机制
Storm的ack机制:1.Storm所谓的消息可靠性指的是Storm保证每个tuple都能被topology完全处理,而且处理的结果要么成功要么失败。出现失败的原因可能有两种,即节点处理失败或者处理超时。2.Storm的Bolt有BasicBolt和RichBolt,在BasicBolt中,BasicOutputCollector在emit数据的时候,会自动和输入的tuple相关联,而在原创 2017-06-01 22:16:28 · 691 阅读 · 0 评论 -
Storm Tick
转载自kqdongnanf-博客园;Email:kqdongnanf@yahoo.com。1. tick的功能Apache Storm中内置了一种定时机制——tick,它能够让任何bolt的所有task每隔一段时间(精确到秒级,用户可以自定义)收到一个来自__systemd的__tick stream的tick tuple,bolt收到这样的tuple后可以根据业务需求完成转载 2017-04-20 10:20:42 · 449 阅读 · 0 评论 -
Storm常用命令
原文:http://blog.youkuaiyun.com/zhangzhebjut/article/details/384577751、提交Topologies命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】【stormIP地址】【storm端口】【拓扑名称】【参数】eg:storm jar /home/storm/storm-starter.jar st转载 2017-04-21 16:27:20 · 462 阅读 · 0 评论 -
Storm on YARN
1. 背景知识(1)Storm:一个实时计算框架,与MapReduce离线计算框架互补,分别用于解决不同场景下的问题,Storm的官方网站是:http://storm-project.net/,如果想快速了解,推荐阅读淘宝的这篇文章:Storm简介。(2)YARN:YARN是Hadoop 2.0中新引入的资源管理系统,可看做Hadoop操作系统中的资源管理组件,所有应用程序转载 2017-05-23 22:15:43 · 380 阅读 · 0 评论 -
Storm的ack机制在项目应用中的坑
原文:http://www.cnblogs.com/intsmaze/p/5918087.html先说一下ACK机制: 为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪。 这里面涉及到ack/fail的处理,如果一个tuple处理成功是指这个Tuple以及这个Tuple产生的所有Tuple都被成功处理, 会调用spout的转载 2017-05-05 13:54:33 · 1112 阅读 · 0 评论 -
Storm基本概念
原文:http://blog.youkuaiyun.com/xeseo/article/details/17674775写在前面的话: 请允许我废话几句。这个系列的文章发布的时间是在我完成了Storm的项目开发之后才找出来时间写的,在研究Storm过程中,国内较好的参考文章实在有限,大多是入门和概念剖析。Storm的GoogleGroup对于新手来说实在不友好。有经验人士都不转载 2017-05-05 14:47:48 · 569 阅读 · 0 评论 -
Storm在Zookeeper中的目录结构
Posted by WeYo. 转载请注明出处:http://weyo.me/pages/techs/storm-with-zookeeper/本文主要参考自 xumingming 的博文 Twitter Storm源代码分析之ZooKeeper中的目录结构。由于新版本的 Storm 在架构上有了较大的变化,相应的目录结构也有了一些改变。本文主要针对 0.9.x 版本的 Sto转载 2017-05-15 14:36:29 · 1627 阅读 · 0 评论 -
缓存在高并发场景下的常见问题
原文:http://www.cnblogs.com/dinglang/p/6133501.html缓存一致性问题当数据时效性要求很高时,需要保证缓存中的数据与数据库中的保持一致,而且需要保证缓存节点和副本中的数据也保持一致,不能出现差异现象。这就比较依赖缓存的过期和更新策略。一般会在数据发生更改的时,主动更新缓存中的数据或者移除对应的缓存。 缓存并发问题转载 2017-05-25 22:39:23 · 417 阅读 · 0 评论 -
Storm线程进程分配方法
原文:http://rainforc.iteye.com/blog/2210596运行中的Topology主要由以下三个组件组成的:Worker processes(进程)Executors (threads)(线程)Tasks其中进程数除以机器数可以得到每台机器的进程数,我们以一台机器为例:Spout或者Bolt的Task个数一旦指定之转载 2017-05-25 22:48:43 · 1544 阅读 · 0 评论 -
Storm中遇到的日志多次重写问题(一)
原文:http://www.cnblogs.com/zpfbuaa/p/5974000.html业务描述: 统计从kafka spout中读取的数据条数,以及写入redis的数据的条数,写入hdfs的数据条数,写入kafaka的数据条数。并且每过5秒将数据按照json文件的形式写入日志。其中保存为json数据的格式为:时间戳 + 进程名称 + 读kafka数据条数 +转载 2017-05-26 09:36:08 · 1329 阅读 · 0 评论 -
理解Storm可靠性消息
原文:http://www.cnblogs.com/chengxin1982/p/4004826.html看过一些别人写的, 感觉有些东西没太说清楚,个人主要以源代码跟踪,参考个人理解讲述,有错误请指正。1基本名词1.1 Tuple: 消息传递的基本单位。很多文章中介绍都是这么说的, 个人觉得应该更详细一点。 在spout发送的时候,函数原型 p转载 2017-05-17 22:08:23 · 324 阅读 · 0 评论 -
Storm如何保证可靠的消息处理
原文:作者Jack47http://www.cnblogs.com/Jack47/p/guaranteeing-message-processing-in-storm.html本文主要翻译自Storm官方文档Guaranteeing message processing,但我觉得官方文档写的有些随意,啰嗦,所以做了一些修改,里面的配图自己重新画了,能够更加贴切的表达意思。内转载 2017-05-17 22:18:43 · 523 阅读 · 0 评论 -
Storm简单介绍
原文:http://matt33.com/2015/05/26/the-basis-of-storm/本文是参考网上的博客以及一些书籍根据自己的一些理解整理得到的,主要是为了更好地理解storm的内部机制(当时使用Storm的版本是0.9.3)。基础Storm的Topology模型一个storm Topology的一般模型为:topology转载 2017-05-18 22:11:56 · 1250 阅读 · 0 评论 -
Storm中Stream分组
Stream原创 2017-04-19 13:43:33 · 1246 阅读 · 0 评论 -
Storm调优(optimiaze)
在充分了解节点计算机硬件资源的情况下进行Storm运行性能的调优。Storm运行性能调优主要是从以下几个方面:(1)代码层面,这得看程序编写者的功力了。(2)并行度层面,分为:setNumWorkers取值;kafkaSpout取值(假设是从Kafka中读取数据);Bolt取值;shuffleGrouping和fieldsGrouping的选择等。1. se原创 2017-07-03 11:19:32 · 4140 阅读 · 0 评论