kafka连接zookeeper异常分析

博客详细记录了Spark读取Kafka超时问题的排查过程,分析了Kafka日志、Zookeeper状态及网络连接,最终定位到调度平台服务对Zookeeper的过度连接,并通过重启服务和代码修复解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 昨天晚上突然收到Spark任务的告警异常,立即打开电脑查看原由,经过一番分析查找,问题得到解决,习惯记录一下

  一、直接问题现象

Spark读取kafka超时, 重新连接依然超时,那就是肯定是kafka出问题了

  二、问题分析排查

1、分析kafka日志

查看其中一台kafka的broker日志,发现了如下错误

查看另一台kafka日志也发现同样的错误,也不用再看其它了

 Unable to read additional data from server sessionid 0x16a3eac591e04e0, likely server has closed socket, 
closing socket connection and attempting reconnect。

 这句话意思是说不能从Zookeeper sessionid为0x16a3eac591e04e0的server中读取Kafka新增的数据,连接的Zookeeper的Server节点可能已经关闭了socket连接,尝试重新连接。 

首先看到State change:处于SUSPENDED,悬挂状态,等待重新连接。而此时kafka对zookeeper state changed (Disconnected)处于非连接状态。接下来就是重新连接Zookeeper依然connection refused,看到这里断定是Zookeeper的问题, 是乎去查看Zookeeper。

2、查看kafka中topic状态

$ kafka-topics --describe  --zookeeper cloudera02:2181,cloudera03:2181,cloudera04:2181 --topic uws_topic

查看kafka节点状态,发现6个Partition的Leader都变成了broker.id为62的节点,Isr也只剩下62,broker.id为63、64的两个节点已经不可用,只剩下一个可用,导致Spark读取超时。既然连接成功,看到topic 信息,表明Zookeeper还可用。

3、查看Zookeeper日志 

查看Zookeeper运行状态良好,是可用的。而Zookeeper的日志时不时的也有同样异常,这是该zookeeper和其它节点zookeeper通信时候连接连接不上是产生的异常,和kafka连接Zookeepe的异常是一样的。 

 $ netstat -anlp|grep 2181 于是查看Zookeeper的对外连接端口,如下图

 

 看到这个现象突然就明白了,来自尾号为116的IP占用了Zookeeper大量的连接,一直处于ESTABLISHED,没有释放连接,连接过多达到上限时候,导致我们其它服务连接Zookeeper超时,所以这也是导致kafka连接不上Zookeeper的最终原因,严重时候,导致依赖Zookeeper的相关服务都会出现不同程度的问题

三、解决问题

于是去查找服务部署文档,查看到192.168.1.116的机器部署了哪些Java服务,查阅文档后知道占用大量连接的是来自调度平台的请求。初步预判是某个童鞋的代码中用每次用完连接后没有关闭。危机关头只能重启调度平台服务,再次查看zookeeper的2181端口,$ netstat -anlp|grep 2181,来自116 Ip的连接都释放了

重启kafka集群, 再次查看topic状态,kafka的Leader、Isr 都处于正常状态,Spark也能正常连接Kafka消费了

$ kafka-topics --describe  --zookeeper cloudera02:2181,cloudera03:2181,cloudera04:2181 --topic uws_topic

 于是再去查看调度平台代码,果然几个地方对Hbase的连接只打开、finally中没有关闭连接代码,通知负责该模块童鞋修改代码,在finally中关闭连接,重新部署,没有再出现类似问题。

 

### KafkaZookeeper的通信机制及配置 #### 一、KafkaZookeeper的关系 Kafka依赖于Zookeeper来完成集群管理和协调工作。具体来说,Zookeeper负责存储Kafka集群的元数据信息,包括但不限于主题(Topic)、分区(Partition)、副本分布以及消费者组的状态等[^1]。 #### 二、通信机制详解 1. **元数据管理** Zookeeper作为分布式协调服务,在Kafka中主要用于保存系统的动态变化状态。例如,当一个新的Broker加入或者离开集群时,这些事件会被记录在Zookeeper上,并通知其他节点进行相应的调整[^3]。 2. **Leader选举** 对于每一个Partition,都需要选出一个Leader Broker来负责该Partition的所有读写操作。这个过程由Zookeeper协助完成——一旦某个Broker宕机,则会触发重新选主逻辑,确保整个系统始终处于可用状态[^1]。 3. **Consumer Group Rebalancing** 当有新的Consumer加入到某Group里头或者是已有成员退出的时候,就需要执行Rebalance动作以重新分配Partitions给不同的Consumers。此过程中同样离不开Zookeeper的支持,因为它提供了必要的锁机制和临时节点创建功能以便实现公平合理的资源划分[^3]。 4. **监控与报警** 此外,借助于Zookeeper还可以轻松实现对Kafka运行状况的有效监测。比如可以通过监听特定路径下的子节点变动情况及时发现异常现象并采取措施加以应对[^2]。 #### 三、基本配置方法 以下是设置连接参数的一个简单例子: ```properties zookeeper.connect=zk_host1:port,zk_host2:port,zk_host3:port session.timeout.ms=6000 sync.time.ms=2000 ``` 其中`zookeeper.connect`指定的是实际部署环境中各个ZooKeeper实例所在的地址列表;而后者两项则分别定义了客户端同服务器保持会话有效性的最长时间间隔以及同步更新所需等待的最大时限[^1]。 #### 四、注意事项 为了提高稳定性和性能表现,在大规模生产环境下建议遵循以下几点最佳实践: - 使用奇数数量的ZooKeepers构成ensemble; - 将ZooKeeper单独布署而不是与其他应用混跑在同一套硬件设施之上; - 定期备份重要数据以防丢失[^3]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值