flink kafkaconsumer线上问题：Marking the coordinator 2147483647 dead.

最新推荐文章于 2022-04-23 22:05:42 发布

原创

最新推荐文章于 2022-04-23 22:05:42 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#flink #kafka

这篇博客主要记录了在使用Flink消费Kafka数据时遇到的'Marking the coordinator 2147483647 dead.'错误。问题源于超时时间和拉取大小设置不当，解决方案是延长超时时间，减小单次拉取大小，并调整fetch.max.wait.ms参数以确保不超过request.timeout.ms。此外，还提到了由于HBase memCache大小调整导致的查询性能问题，影响了Flink任务的正常运行。

错误日志：

解决方案：

参考文章：http://www.bubuko.com/infodetail-2332804.html

修改参数：
props.setProperty("fetch.max.wait.ms", "60000");
props.setProperty("session.timeout.ms", "500000");
props.setProperty("max.partition.fetch.bytes", "262144");

将超时时间设置的更长，将一次拉取大小设置成默认的四分之一，防止处理时间过长导致session失效，导致提交offset失败。

因fetch.max.wait.ms不能大于request.timeout.ms，所以还要修改这个参数：

props.setProperty("request.timeout.ms", "600000");

问题得到解决。

2.另一个原因

运维把hbase的memCache调小了，导致查询命中率下降，和磁盘的交互增加，查询速度变慢，队列打满，查询超时。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bianfulin_

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【kafka】消费组死掉 kafka Marking the coordinator dead for group

九师兄

12-13

3900

java kafka consumer不消费，报错marking the coordinator (id rack null) dead for groupStructedStreaming Kafka 排错（AbstractCoordinator: Marking the coordinator *dead for grou调整Spark Streaming的日志输出级别，解决Spark Streaming的代码报错：Marking the coordinator * dead for group。

【Flink】Flink 控制台能消费但是 Flink 任务不能消费内置topic 导致问题

九师兄

10-26

700

一个流任务，在其他环境都正常，但是有个环境突然不正常了，数据消费为0.【Flink】Flink source后全过滤数据导致监控数据为0然后一会直接排除了这个，我们这个没有做限制。然后又看看topic详情，发现topic是正常的。然后控制台消费，是正常的，然后去流任务看看日志，发现日志也是正常的，没有任何报错。【FLink】Flink 消费 kafka 消费组死掉 Marking the coordinator dead for group 造成数据重复消费。

参与评论您还未登录，请先登录后发表或查看评论

kafka发送消息失败排错

qq_41589166的博客

01-10

2867

问题所有配置均无问题，但是发送后消费者无法消费日志报错信息 Marking the coordinator hexd-1:9092 (id: 2147483647 rack: null) dead for group test 被标记为死亡, 不能接收消息的原因可能就是消费者死亡导致的原因生产者发送消息时以主机名：端口的形式发送消息，而局域网中不能通过主机名互相访问解决方...

Marking the coordinator dead for group recommender报错

javaChengXuY的博客

05-31

1010

spark整合Kafka报错： Marking the coordinator hadoop-01:9092 (id: 2147483647 rack: null) dead for group recommender 在网上查询是因为调用的时候没有在windows的host中设置kafka所在机器的映射。我kafka所在机器名称是hadoop-01，后在host中将机器名称和ip映射保存后解决！特此记录！ ...

Marking Coordinator Dead！

紫蝶侠的博客

07-06

938

log cleaner线程挂掉还有可能导致消费端出现：Marking Coordinator Dead！原因大概如下： log cleaner线程挂掉之后会导致磁盘上位移主题的文件越来越多（当然，大部分是过期数据，只是依旧存在），broker内存中会维护offsetMap，从名字上看这个map就是维护消费进度的，而这个map和位移主题的文件有关联，文件越来越多会导致offsetMap越来越大，甚至导致offsetMap构建失败（为什么会失败没有搞明白），offsetMap构建失败之后broker不会承认自

java kafka consumer不消费，报错marking the coordinator (id rack null) dead for group

赶路人儿

07-06

8965

问题描述：在linux系统，通过 kafka 命令行客户端测试消费正常，但通过Java consumer客户端无法正常接收队列消息，启动后输出如下日志信息： 15:21:34.864 [concurrentMessageListenerContainer-0-kafka-consumer-1] INFO org.apache.kafka.clients.consumer.internals.AbstractCoordinator - Marking the coordinator platform-0

StructedStreaming Kafka 排错（AbstractCoordinator: Marking the coordinator *dead for grou

雨果等夏天的博客

04-26

5320

描述：这次要接收一个新业务的数据，这个数据已经用Flume采集到了kafka里，考虑后决定采用SparkStructedStreaming去接收数据，可是在接收过程中一直报一个错 19/04/26 15:06:11 INFO AbstractCoordinator: Discovered coordinator hbase-single:9092 (id: 2147483647 rack: nu...

【Flink Kafka】Flink程序连接Kafka没输出也不报错

HR的博客

03-25

2860

Flink程序连接Kafka没输出也不报错本人最近在使用Kafka作为数据源输出数据到Flink时遇到一个问题，那就是既没有结果输出，也没有报错代码如下 package Source import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment import org.apache.flin

【kafka】kafka 查看 GroupCoordinator 和 ConsumerCoordinator

九师兄

11-27

936

因为消费组死掉，然后我想用这个获取消费组状态。消费组死掉可能会造成很多问题，比如下面的几种。【kafka】kafka 查看 GroupCoordinator 以及 kafka Group dead 消费组死掉以及 GroupCoordinatorRequest 使用【Flink】Flink Kafka 消费卡死消费组卡死 topic无写入实际有数据 topic正常。

kafka consumer 日志疯狂输出 marking the coordinator host:9092 for dead group consumer-test

05-10

9866

最近在调试spark-streaming消费kafka消息时发现日志疯狂输出 marking the coordinator host:9092 for dead group consumer-test kafka server为集群，连接时使用的是hostname:9092方法去连接，程序也不报错，去kafka server当中查询consumer-test组也存在，经过排查

记录kafka踩坑：marking the coordinator (id rack null) dead for group

weixin_48445640的博客

02-27

2636

工作中用java代码连接k8s集群中的kafka集群时消费者java代码一直报异常marking the coordinator (id rack null) dead for group。经过长时间试错，有两点解决办法。首先，更新pom文件中的kafka-clients版本，我之前用的0.11.0.0版本已经无法完美支持新版本的kafka了，所以改成新版我改为了:2.4.1 第二就是通过idea工具找到该方法，打断点：在画圈处打断点，发现解析出来的host域名不是在application.yml中配

调整Spark Streaming的日志输出级别，解决Spark Streaming的代码报错：Marking the coordinator * dead for group *

专注于后端开发，时常接触大数据、人工智能等

05-07

4756

Spark Streaming消费Kafka中的数据，报错如下截图： `19/05/07 17:16:58 INFO AbstractCoordinator: Discovered coordinator slave2:9092 (id: 2147483645 rack: null) for group UserClikAnalysis. 19/05/07 17:17:00 INFO Abstra...

Flink整合Kafka报错：Marking the coordinator hadoop000:9092(id: 2147483647 rack: null) dead

逆天骚年的博客

07-09

4854

代码很简单，如下： package com.imooc.flink.course08 import java.util.Properties import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.streaming.api.scala.{DataStream, Str...

【FLink】Flink 消费 kafka 消费组死掉 Marking the coordinator dead for group 造成数据重复消费

九师兄

07-28

1516

【Flink】Flink Kafka 消费卡死消费组卡死 topic无写入实际有数据 topic正常Kafka : kafka无法消费的情况在博客【kafka】消费组死掉 kafka Marking the coordinator dead for group中消费组死掉，但是不会造成数据重复消费，但是这次却造成重复消费了。flink消费kafka的时候，出现了一个两个warn日志，后面flink继续运行。

Coordinator折叠

你全家都是博客

11-14

224

1.导包design 2.主函数 public class CoordinatorLayoutActivity extends AppCompatActivity { @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState)

Kafka-Spark Streaming 异常： dead for group td_topic_advert_impress_blacklist

迎难而上

11-01

4795

最近在编写Spark Streaming 作业的时候，遇到了一个比较奇怪的问题，表现如下：在本地连接Kafka 集群执行作业： 18/10/31 17:42:58 INFO AbstractCoordinator: Discovered coordinator kafka1:9092 (id: 2147483574 rack: null) for group td_topic_...

一次KAFKA消费者异常引起的思考

weixin_33918357的博客

12-25

553

问题描述：线上出现一台服务器特别慢，于是关闭了服务器上的kafka broker. 关闭后发现一些kafka consumer无法正常消费数据了, 日志错误：o.a.kakfa.clients.consumer.internals.AbstractCordinator Marking the coordinator (39.0.2.100) as dead. 原因：经过一番排查，发现cons...

Hello Android! Marking useful things....

nkscorpion的专栏

05-30

611

Android code online: http://grepcode.com/project/repository.grepcode.com/java/ext/com.google.android/a

精通Flink项目优化（四.KafkaSource调优）

wenqi

04-23

3126

KafkaSource调优动态发现分区当 FlinkKafkaConsumer 初始化时，每个 subtask 会订阅一批 partition，但是当 Flink 任务运行过程中，如果被订阅的 topic 创建了新的 partition，FlinkKafkaConsumer 如何实现动态发现新创建的 partition 并消费呢？在使用 FlinkKafkaConsumer 时，可以开启 partition 的动态发现。通过 Properties指定参数开启（单位是毫秒）： FlinkKafkaC

Flink 实时任务group by 可能会导致的问题

最新发布

08-31

<think> 我们参考了用户提供的引用内容，结合Flink实时任务中使用group by的常见问题，总结如下： 1. **数据倾斜问题**：当group by的键分布不均匀时，可能导致某些子任务处理的数据量远大于其他子任务，造成数据倾斜。这会使得整个任务的处理速度受限于最慢的子任务，严重时可能导致任务失败。例如，引用[3]中提到，如果按商品ID进行keyBy，某些热门商品的数据量过大，就会导致处理该商品的分区负载过高。 2. **资源分配不均**：数据倾斜会导致部分TaskManager的CPU、内存和网络资源消耗过高，而其他TaskManager的资源利用率却很低。引用[1]中提到的环境是3个并发度（3个TaskManager），如果其中一个TaskManager负载过高，可能会成为瓶颈。 3. **死锁问题**：在写入外部存储（如PostgreSQL）时，如果group by的字段不等于目标表的主键字段，可能导致写入死锁。引用[1]中描述了这种场景：多个并发任务尝试以不同的顺序更新或插入同一组数据，导致数据库表级锁冲突。例如，节点A、B、C同时写入同一张表，且操作涉及非主键字段的分组，可能触发死锁。 4. **状态管理问题**：使用group by后，Flink需要维护每个键的状态（如窗口状态、累加器等）。如果分组键过多或状态数据过大，可能导致： - 状态后端压力增大（如RocksDB I/O瓶颈） - Checkpoint超时或失败（引用[2]提到需要关注checkpoint设置） - 状态过期时间设置不合理（引用[2]提到数据状态保存时间） 5. **消费组异常问题**：引用[4]提到，Flink消费Kafka时可能出现消费组"假死"现象（Marking the coordinator dead for group），导致数据重复消费。虽然该问题与group by无直接关联，但在实时任务中，如果group by操作导致处理延迟，可能间接引发Kafka消费组心跳超时，从而触发此类问题。 6. **并行度调整困难**：引用[2]指出并行度需要调整。如果group by后的操作链（如窗口聚合）并行度设置不合理，可能加剧数据倾斜或资源浪费。 ### 解决方案建议 1. **应对数据倾斜**： - 添加随机前缀打散热点键（如`CONCAT(key, '_', RAND() % 10)`），聚合后再合并结果。 - 使用局部聚合+全局聚合两层处理。 2. **避免死锁**： - 确保group by字段与目标表主键一致（引用[1]的核心启示）。 - 降低写入并发度或使用`ON CONFLICT`更新策略（针对PostgreSQL）。 3. **状态优化**： - 设置合理的状态TTL（Time-To-Live）。 - 使用增量Checkpoint（如RocksDB状态后端）。 4. **并行度调整**：根据group by键的基数调整并行度，避免单个子任务负载过重。 §§相关问题§§ 1. Flink实时任务中如何诊断数据倾斜问题？ 2. 如何优化Flink状态后端以减少group by操作带来的压力？ 3. 在Flink SQL中，group by与非主键字段关联写入数据库时，如何避免死锁？ </think> ### Flink实时任务中使用Group By可能导致的问题根据引用内容并结合Flink特性，使用Group By时需注意以下问题： 1. **数据倾斜问题** Group By操作本质上是按Key分区处理，当Key分布不均匀时会导致数据倾斜（引用[3]）。例如电商场景中按热门商品ID分组，少数TaskManager可能处理90%数据，造成： - 个别节点资源（CPU/内存）耗尽 - 反压传导至上游数据源 - 窗口计算延迟增加 $$P(\text{负载不均衡}) \propto \frac{\max(\text{Key分布熵})}{\text{并行度}}$$ 2. **状态管理风险** - **状态爆炸**：高基数Key（如用户ID）导致状态体积指数级增长（引用[2]） - **Checkpoint失败**：大状态会使Checkpoint超时（默认10分钟），可能触发任务重启 - **TTL失效**：未合理设置状态存活时间（`table.exec.state.ttl`）导致内存泄漏 3. **死锁风险（写入场景）** 当Group By字段≠目标表主键时，并发写入可能引发死锁（引用[1]）： ```mermaid graph LR A[TaskManager A] -->|更新记录X| PG[(PostgreSQL)] B[TaskManager B] -->|更新记录Y| PG C[TaskManager C] -->|更新记录X| PG # 与A竞争锁 ``` 尤其在3节点部署时（引用[1]），多个并行度同时更新相同主键行会导致数据库行锁冲突。 4. **资源分配问题** - 并行度设置不当（引用[2]）时，Group By可能造成： - 低并行度：无法利用集群资源 - 高并行度：Shuffle网络开销剧增 - 需要根据`hash(key) mod parallelism`动态调整负载 5. **消费组异常（Kafka源场景）** Group By处理延迟可能导致Kafka消费组心跳超时（引用[4]），引发： - `Marking the coordinator dead` 错误 - 消费组被误判死亡导致重复消费 - 偏移量提交失败 ### 最佳实践建议 1. **防倾斜**：对热点Key添加随机后缀（如`key || '_' + rand(10)`）分散负载 2. **状态优化**： - 设置合理TTL：`table.exec.state.ttl = 3600s` - 开启增量Checkpoint 3. **写入安全**：确保Group By字段包含目标表所有主键字段（引用[1]） 4. **资源调优**： ```sql SET table.exec.resource.default-parallelism = 4; -- 根据集群规模调整 SET execution.checkpointing.timeout = 5min; -- 大状态场景延长超时 ```