storm 拓扑worker time-out重启问题排查

最新推荐文章于 2021-12-14 01:49:08 发布

大大大大大发

最新推荐文章于 2021-12-14 01:49:08 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： storm

本文链接：https://blog.youkuaiyun.com/ZSZSZSxh/article/details/82563208

storm版本：0.9.0.1
异常描述：拓扑运行一段时间后、个别机器的worker进程会出现time-out重启的情况，而该worker进程重启后，并不能正常工作、在spout不断出现fail、原因不明。将拓扑kill掉、重启该拓扑，则可以正常运转。

观察到出现worker time-out重启的情况，通常都出现在cpu load出现一个小峰值的时间点、如下图所示。
这里写图片描述
且worker重启，90%的情况都是出现在同一台机器上，因此错以为是该机器cpu负载相对较高，导致的worker无法正常更新心跳包导致的进程重启。

因此想通过延迟supervisor.worker.timeout.secs的超时时间，用以解决问题。例如设置为600s（默认30s）。
在topology中增加了一下配置，

 config.put("supervisor.worker.timeout.secs", 600);
 StormSubmitter.submitTopology(topoName, config, builder.createTopology());

设置了以上参数后、可以在该topology对应的storm ui看到该参数已经配置了，如下图所示：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大大大大大发

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Storm常见问题排查：性能瓶颈异常处理

AI架构师小马

06-10

483

Storm常见问题排查：性能瓶颈、异常处理 1. 背景介绍 1.1 Storm简介 Apache Storm是一个开源的分布式实时计算系统,用于处理大规模的流式数据。它提供了一个简单且强大的编程模型,允许开发人员构建可扩展、容错、

Storm排错调优之Worker重启

Simon的博客

08-16

2910

Storm排错调优之Worker重启在storm运行log中可以看到worker.log日志显示shutting down xxxworker。在相同的时间点位于storm运行日志中的supervisor.log显示kill xx...

参与评论您还未登录，请先登录后发表或查看评论

storm worker异常重启

wangkuangood3200的专栏

09-15

570

storm supervisor.out日志中有报错： supervisor [INFO] Shutting down and clearing state for id ae1ad586-ce5c-459a-8f32-30410683b4d6. Current supervisor time: 1408166828. State: :timed-out, Heartbeat: 对于一个wor...

异常导致 Storm Worker 重启

专注互联网后端技术

10-26

677

spout一直报错导致worker重启 2016-10-25 14:00:12 STDIO [ERROR] at com.mysql.jdbc.Util.getInstance(Util.java:386) 2016-10-25 14:00:12 STDIO [ERROR] at com.mysql.jdbc.SQLError.createSQLException(SQLError.ja...

【Streaming】为什么提交任务后，worker不断重启，任务部署总是不成功？

小海的专栏

04-13

2577

提问：提交某一任务拓扑后，在界面上看，任务一直部署不成功。或者看起来部署成功，有开始数据，但总数据量不断从0开始计数分析一般这种情况出现在某一拓扑中包含大量worker，且worker中包含大量并发线程数。 1．在UI界面上，点击进入相应spout/bolt，观察其各个线程，发现线程的up时间不断从0开始 2．在分配有work的节点环境中，使用JPS可以看到，worker进行不断重启

Storm 重启排查（续）

java 帝国

08-30

1325

此文主要接 storm worker异常重启原因排查汇总这篇文章继续描述。上文中的第三点大概描述了一下造成重启的原因，这次又有一次详细的排查过程和思路供参考。一、背景今天，另一个同事反应，我们的一个任务在早上4点到10点之间会有严重的数据丢失，而这个时间点与一个数据导入任务的时间点是吻合的，经查看此任务的的数据量有将近5亿。因此，在这段时间内造成的影响还是挺大的，毕竟都是...

storm源码包 apache-0.9.4

03-12

Storm 的配置文件 `conf/storm.yaml` 控制着集群的行为，包括 Nimbus（主控节点）、Supervisor（工作节点）和 Worker 进程的设置。部署时，通常将 Storm 集群安装在多台服务器上，通过 ZooKeeper 协调。 7. **开发...

StormFN-Launcher:用于Storm的启动器

03-18

2. **拓扑构建**：根据用户需求，启动器可以解析和构建Storm拓扑，这是Storm处理数据的核心部分。开发者可以通过C#编写自定义的Spout和Bolt组件，实现数据的输入、处理和输出。 3. **提交拓扑**：完成拓扑构建后，...

手动部署Storm集群：步骤与问题解决

"这篇文章详细介绍了如何进行Storm集群的安装部署，包括步骤、注意事项以及常见问题的解决方案。在Storm集群中，MasterNode运行Nimbus服务，相当于Hadoop中的JobTracker，负责任务调度和监控集群状态。而WorkNode...

twitter storm 配置项6.0

社会化搜索与互联网广告精准推荐

02-03

2359

配置项配置说明 storm.zookeeper.servers ZooKeeper服务器列表 storm.zookeeper.port ZooKeeper连接端口 storm.local.dir storm使用的本地文件系统目录(必须存在并且storm进程可读写) storm.cluster.mode Storm集群运行模式([distribut

Storm处理流程, 基本参数配置

weixin_30385925的博客

09-30

354

配置选项名称配置选项作用 topology.max.task.parallelism 每个Topology运行时最大的executor数目 topology.workers 每个Topology运行时的worker的默认数目，若在代码中设置，则此选项值被覆盖 storm.zookee...

storm worker异常重启原因排查汇总

java 帝国

06-18

1327

此时此刻，正在等到6.18的到来，趁着没事写个博客，，， storm集群在worker down掉以后会自动启动新的woker，但是有很多情况下是感觉不应该重启的时候，woker重启了，因此就走上了排查woker重启的道路上~ 一、排查思路经过排查，主要总结有以下几种问题，会导致woker重启： 1. 代码有未捕获的异常如下例子，因为处理的数据有异常，并且在代码中没有捕...

Storm实战常见问题及解决方案